HTSeq 0.6.1


Folgende Angaben sind ohne Gewähr, da das Hintergrundwissen fehlt!


1. Beschreibung

....

Über die Nutzung von HTSeq hinausgehendes wie die Installation von HTSeq und die Installation und Nutzung von Python findet sich im Bereich Python.

1.1. Theorie

Links:

3. HTSeq

3.x. A tour through HTSeq

Abtippen von http://www-huber.embl.de/HTSeq/doc/tour.html.

Python starten.

Modul HTSeq importieren

import HTSeq

Beispiel-FASTQ-Datei yeast_RNASeq_excerpt_sequence.txt aus dem Git-Repository downloaden und einlesen (muss im selben Pfad gespeichert sein oder Pfadangabe erweitert werden)

fastq_file = HTSeq.FastqReader( "yeast_RNASeq_excerpt_sequence.txt", "solexa" )

itertools importieren

import itertools

10 reads einlesen und ausgeben (vor print read ist ein Tabulator)

for read in itertools.islice( fastq_file, 10 ):
    print read


Eigenschaften des noch gespeicherten 10. reads ausgeben

read

Slots des reads ausgeben

read.name
read.seq
read.qual

numpy

numpy importieren

import numpy

Länge eines reads

len( read )

qualsum = numpy.zeros( len(read), numpy.int )

pysam
https://github.com/pysam-developers/pysam
https://pysam.readthedocs.io/en/latest/

BAM-Datei zum Lesen öffnen

import pysam
samfile = pysam.AlignmentFile("ex1.bam", "rb")

Counting reads
gtf_file = HTSeq.GFF_Reader( "Saccharomyces_cerevisiae.SGD1.01.56.gtf.gz"
exons = HTSeq.GenomicArrayOfSets( "auto", stranded=True )
Using the full coverage

BAM-Datei einlesen (für korrekte Werte muss anscheinend nach dem Namen sortiert sein, nicht nach Gen-Koordinaten)

bamfile = HTSeq.BAM_Reader( "SRR001432_head.bam" )
bamfile_test = HTSeq.BAM_Reader( "SRR001432_head_sorted.bam" )

GTF-Datei einlesen

gtffile = HTSeq.GFF_Reader( "Homo_sapiens.GRCh37.56_chrom1.gtf" )

x. samtools / pysam

Man-Page: http://www.htslib.org/doc/samtools.html

Sortieren einer BAM-Datei nach read name und speichern als SAM-Datei (ein Vielfaches (7x oder mehr) der Ausgangsdatei als freien Speicherplatz bereitstellen)

samtools sort -n -O SAM -o OUTPUTFILE.sam INPUTFILE.bam

Sortieren einer BAM-Datei nach Koordinaten (default) und speichern als BAM-Datei (default)

samtools sort -o OUTPUTFILE.test INPUTFILE.bam

Prüfen der Integrität einer DAM-Datei (für mehr Fehlerausgaben "-v" mehrmals wiederholen)

samtools quickcheck -v INPUTFILE.bam

x. samtools (Windows, 2012)

Noch in Arbeit!

https://www.biostars.org/p/122718/

Konvertieren von BAM zu SAM??

samtools.exe view -h -o out.sam in.bam

Konvertieren von SAM zu BAM??

samtools.exe view -Sb -o out.bam in.sam

x. htseq-count

Optionen: http://www-huber.embl.de/HTSeq/doc/count.html

GTF dürfte Version 2 von GFF sein.

Konsolenaufruf

htseq-count SAMFILE.sam GTFFILE.gtf

oder

htseq-count -f bam BAMFILE.bam GTFFILE.gtf

zum Speichern aller alignment records in SAMOUT.txt

htseq-count -f bam BAMFILE.bam GTFFILE.gtf -o SAMOUT.txt

Beispiel

htseq-count -f bam SRR001432_head_sorted.bam Homo_sapiens.GRCh37.56_chrom1.gtf -o result.txt

oder für Windows falls htseq-count nicht im Pfad ist

python -m HTSeq.scripts.count -f bam SRR001432_head_sorted.bam Homo_sapiens.GRCh37.56_chrom1.gtf -o result.txt

Konsolenausgabe - Kurzfassung

100000 GFF lines processed. 197895 GFF lines processed.
100000 SAM alignment records processed.
200000 SAM alignment records processed.
299973 SAM alignments processed.

Der Rest der Konsolenausgabe findet sich in htseq_result_konsole.txt und die alignment records in htseq_result_alignments.txt.