如何對二代測序數據進行質量分析?

時間:2022-07-10 19:48:20 其他

如何對二代測序數據進行質量分析?

從事生物信息學分析的學生和工作人員都會接觸到二代測序數據,我們從測序公司拿到所需要的數據之后,首先最關心的問題就是測序數據的質量好不好,本文介紹一下如何對二代測序數據進行質量分析(QC)

工具/原料

linux系統:ubuntu 或者 服務

fastqc

方法/步驟

1

安裝fastqc

注意將fastqc加入到系統環境變量中,以便于在終端或命令行中直接運行

具體安裝方法參考fastqc官方手冊

2

在命令行中直接運行命令

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]

output dir指的是輸出結果路徑

extract參數指的是輸出結果是否解壓

-f 參數 是輸入文件的格式,指的是測序數據

3

運行fastqc:

fastqc seqfile1.fq seqfile2.fq

4

輸出結果:在output dir目錄下的一個壓縮文件(未壓縮)

通常我們只需關注如下幾個結果

1 每個位置的堿基測序質量。通常我們一般認為從第二個堿基開始,平均每個堿基的測序質量boxplot下四分位線在30分以上,則認為測序質量非常好

5

2.每條序列的測序質量 一般認為90%的reads測序質量在35分以上,則認為該測序質量非常好

6

3. ATCG堿基在各個位置上的分布 一般來說,AT含量高于CG含量,AT含量約28%,CG含量約22%。由于測序問題,通常第一二位置的堿基測序質量比較低,ATCG含量也不正常。這種情況不影響數據質量,如果實在介意,可在后續bowtie mapping的時候將前兩個堿基去掉


【如何對二代測序數據進行質量分析?】相關文章:

如何分析報錄比數據01-31

店鋪的數據分析該如何來做06-17

如何進行初中化學試卷分析03-31

數據分析報告07-28

大數據分析07-20

銷售數據的分析方法07-25

大數據分析07-25

多維數據分析方法04-07

數據分析工作職責07-28

數據分析常用方法07-26