一、 介紹
細菌基因組研究是通過基因組測序和組裝,獲得細菌全基因組序列,并對基因組開展結構預測、功能注釋、比較基因組學及泛基因組研究。依據(jù)研究精細程度不同,分為框架圖(也稱為草圖)、完成圖(0gap),下面我們主要介紹框架圖的分析內容。
二、 分析流程
基本流程:建庫測序,序列優(yōu)化,基因組組裝,基因及結構預測,功能注釋,畫圖展示。
三、 分析步驟與結果展示
1、測序序列的質控和拼接
2、組裝結果評估:把reads比對到組裝好的基因組序列上,通過統(tǒng)計組裝序列的GC含量和 reads覆蓋深度,總結基因組的GC偏向性和重復序列情況及污染情況。
注:橫坐標表示 GC 含量,縱坐標表示測序深度
3、 非編碼RNA預測:使用RNAmmer 軟件對基因組中rRNA進行預測;使用tRNAscan-SE 軟件對基因組中tRNA進行預測。
4、 CDS預測:使用prodigal軟件進行基因預測,它的目標是在識別現(xiàn)有基因時獲得更大的敏感度,更準確地預測翻譯起始點,并盡量減少錯誤的正向預測的數(shù)量。
基因組信息統(tǒng)計
5、 COG功能注釋:COG(Clusters of Orthologous Groups of proteins)是在對已完成基因組測序的物種的蛋白質序列進行相互比較的基礎上構建的,COG數(shù)據(jù)庫選取的物種包括各個主要的系統(tǒng)進化譜系。 每個COG家族至少由來自3個系統(tǒng)進化譜系的物種的蛋白所組成, 所以一個COG對應于一個古老的保守結構域。構成每個COG的蛋白被假定來自于同一個祖先蛋白。 進行COG數(shù)據(jù)庫比對可以對預測蛋白進行功能注釋、歸類以及蛋白進化分析。
COG功能分類統(tǒng)計圖
6、 KEGG功能注釋: KEGG(Kyoto Encyclopedia of Genes and Genomes)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的大型知識庫。KEGG GENES數(shù)據(jù)庫提供關于在基因組計劃中發(fā)現(xiàn)的基因和蛋白質的序列信息;KEGG PATHWAY數(shù)據(jù)庫包括各種代謝通路、合成通路、膜轉運、信號傳遞、細胞周期以及疾病相關通路等。
KEGG Level2 Gene Count
對于每張KEGG pathway圖,標注基因組比對上的基因。
Pathway
7、 GO注釋: GO數(shù)據(jù)庫分別從功能、參與的生物途徑及細胞中的定位對基因產(chǎn)物進行了標準化描述,所謂的GO,是生物學功能注釋的一個標準詞匯表術語(GO term),將基因的功能分為三部分:基因執(zhí)行的分子功能(Molecular Function), 基因參與的生物學過程(Biological Process), 基因所處的細胞組分(Cellular Component)。對每個分類下比對上的基因數(shù)進行統(tǒng)計。
8、 NR數(shù)據(jù)庫注釋:NCBI非冗余蛋白數(shù)據(jù)庫比對得到對應物種分類信息比率,能知道基因組物種信息。
9、 GTBD注釋結果:這一分類系統(tǒng)以細菌中普遍存在的120個單拷貝蛋白質(bac120)為基礎;在對多分組類別消歧后,根據(jù)相對演化散度標準化和分級,得到基因組分類數(shù)據(jù)庫(GTDB release95)。將質控后的reads與GTDB數(shù)據(jù)庫進行比對注釋物種信息。
10、 Swiss-Prot 數(shù)據(jù)庫注釋:Swiss-Prot,是2002年由 UniProt consortium 建立的基因數(shù)據(jù)庫,其特點在注釋結果經(jīng)過實驗驗證,可靠性較高,可用作其他數(shù)據(jù)的參考。
11、CAZy注釋:CAZy(Carbohydrate-active enzymes,碳水化合物活性酶)數(shù)據(jù)庫是研究碳水化合物酶的專業(yè)級數(shù)據(jù)庫,主要涵蓋6大功能類:糖苷水解酶(Glycoside Hydrolases,GHs);糖基轉移酶(Glycosyl Transferases,GTs);多糖裂合酶(Polysaccharide Lyases,PLs);碳水化合物酯酶(Carbohydrate Esterases,CEs);輔助氧化還原酶(Auxiliary Activities , AAs);碳水化合物結合模塊(Carbohydrate-Binding Modules,CBMs)。對每個分類下比對上的基因數(shù)進行統(tǒng)計。
12、CARD數(shù)據(jù)庫注釋: CARD(Comprehensive Antibiotic Resistance Database) 數(shù)據(jù)庫,其核心是 ARO(Antibiotic Resistance Ontology),ARO 包含了與抗生素抗性基因,抗性機制,抗生素和靶相關的term。通過ARO(the Antibiotic Resistance Ontology)的形式整合了抗性基因,抗性類型,抗性機制等信息。CARD 數(shù)據(jù)庫已成為目前最受歡迎的耐藥基因研究工具之一。
13、毒力因子分析VFDB:毒力因子數(shù)據(jù)庫VFDB由中國醫(yī)學科學院研發(fā),被廣泛應用于毒力因子基因鑒定。
14、PHI注釋:PHI( Pathogen Host Interactions Database),病原與宿主互作數(shù)據(jù)庫,主要來源于真菌、卵菌和細菌病原,感染的宿主包括動物、植物、真菌以及昆蟲。該數(shù)據(jù)庫對尋找藥物干預的靶基因研究有重要作用,同時該數(shù)據(jù)庫還包括抗真菌化合物和相應的靶基因。數(shù)據(jù)庫中的每個基因都包含核酸和氨基酸序列,以及感染宿主過程中預測的蛋白功能的詳細描述。病原體PHI表型突變類型基因數(shù)目的統(tǒng)計如下:
四、 常見問題
1、測序堿基準確率是什么意思,具體的計算方法是什么?
堿基測序的質量值Q是準確度(P)的一種格式轉換,是為了方便使用一個字符表示非常復雜的準確度,占用最小空間;轉換公式為P=1-10^(-Q/10),如Q=30/20/10的準確度分別為99.9%,99%,90%。
2、細菌基因組的組裝結果中,N50和N90的具體含義,以及如何計算?
它們是基因組組裝中常用的組裝指標,要知道是越大越好。大于N50長度的序列占基因組總長的50%,大于N90長度的序列占基因組總長的90%。
具體計算方法:將所有拼接序列按照長度從大到小排列,找到TopNr 序列總長度剛好大于基因組總長度的50%(90%)位置,則該序列的長度定義為N50(N90);該數(shù)值反映了基因組50%(90%)以上的區(qū)域,都能被該數(shù)值以上長度的序列覆蓋,同時體現(xiàn)了組裝質量對于后續(xù)數(shù)據(jù)分析的質量貢獻。
3、在有雜菌污染的情況下,為什么得不到好的組裝結果呢?
不同物種會有非常多的同源序列,高度相似序列會對組裝軟件產(chǎn)生干擾,而軟件為保證組裝的準確性,只能將可疑的部分切斷成不同的碎片序列。
4、如果關注的基因沒有被注釋出來,是什么原因呢?
1) 可能該基因在拼接時沒有被成功拼接;
2) 該基因在目標基因組上可能壓根不存在;
3) 在注釋的數(shù)據(jù)庫里還沒有該基因的相關記錄,所以無法被參考注釋出來;
4) 研究的具體株菌中,可能根本不存在這個基因,還需要進一步確定該菌株中是否真的含有該基因。
5、草圖與完成圖的區(qū)別是什么?
一般細菌基因組草圖是指根據(jù)二代測序結果拼接而成,中間存在gap的基因組,而與之相對的細菌完成圖就是二代測序加上了三代測序,借助三代測序讀長長的優(yōu)勢,完全沒有gap的基因組。

微基生物 您自己的微生態(tài)研究團隊|專注微生態(tài)研究與應用












