后基因組學(xué)

HGP即將完成,我們即將進(jìn)入“后基因組學(xué)”(post-genomics)時(shí)代。基因組學(xué)研究重心已開(kāi)始從揭示生命的所有遺傳信息轉(zhuǎn)移到在分子整體水平對(duì)功能的研究上,這種轉(zhuǎn)向的一個(gè)標(biāo)志是產(chǎn)生了功能基因組學(xué)(functional genomics)這一新學(xué)科。

釋義

人類基因組圖揭示了人類遺傳的機(jī)密,而對(duì)生命活動(dòng)起調(diào)節(jié)作用的是蛋白質(zhì)。與基因組相比,蛋白質(zhì)的結(jié)構(gòu)和功能更精彩,人的生命活動(dòng)和健康的維護(hù),最終要靠蛋白質(zhì)的解析得到解決,這就是即將興起的后基因組學(xué),或稱蛋白質(zhì)工程。
基因組學(xué)實(shí)際上是為功能基因組學(xué)做準(zhǔn)備,一旦功能基因組學(xué)進(jìn)入實(shí)質(zhì)性的發(fā)展階段,人類將可以從中獲得更大的利益。功能基因組的任務(wù)是進(jìn)行基因組功能注釋(Genome annotation),了解基因的功能,認(rèn)識(shí)基因與疾病的關(guān)系,掌握基因的產(chǎn)物及其在生命活動(dòng)中的作用。在使用全局方法進(jìn)行研究時(shí),研究人員同時(shí)檢測(cè)大量基因的表達(dá)水平,從而在整體水平上獲得關(guān)于基因功能及基因之間相互作用的信息。如果說(shuō)生物信息學(xué)在HGP中的著重點(diǎn)是基因組序列的話,那么在功能基因組中,生物信息學(xué)的著重點(diǎn)則是序列的生物學(xué)意義,基因組編碼序列的轉(zhuǎn)錄、翻譯的過(guò)程和結(jié)果,著重分析基因表達(dá)調(diào)控信息,分析基因及其產(chǎn)物的功能。在功能基因組時(shí)代,應(yīng)用生物信息學(xué)方法,高通量地注釋基因組所有編碼產(chǎn)物的生物學(xué)功能是一個(gè)重要的特征。功能基因組學(xué)的研究主要包括以下幾個(gè)方面的內(nèi)容,并且這幾方面都與生物信息學(xué)密切相關(guān)。(1)進(jìn)一步識(shí)別基因,識(shí)別基因轉(zhuǎn)錄調(diào)控信息,分析遺傳語(yǔ)言。(2)注釋所有基因產(chǎn)物的功能,這是目前基因組功能注釋的主要層次。序列同源性分析、生物信息關(guān)聯(lián)分析、生物數(shù)據(jù)挖掘是進(jìn)行功能注釋的主要生物信息學(xué)手段。(3)研究基因的表達(dá)調(diào)控機(jī)制,研究基因在生物體代謝途徑中的地位,分析基因、基因產(chǎn)物之間的相互作用關(guān)系,繪制基因調(diào)控網(wǎng)絡(luò)圖;(4)比較基因組學(xué)研究,在基因組水平對(duì)各個(gè)生物進(jìn)行對(duì)照比較,可以揭示生命的起源和進(jìn)化、發(fā)現(xiàn)蛋白質(zhì)功能。


與生物信息學(xué)相關(guān)的研究

1、基因表達(dá)數(shù)據(jù)的分析與處理
基因表達(dá)數(shù)據(jù)分析是目前生物信息學(xué)研究的熱點(diǎn)和重點(diǎn)。目前對(duì)基因表達(dá)數(shù)據(jù)的處理主要是進(jìn)行聚類分析,將表達(dá)規(guī)律相似的基因聚為一類,在此基礎(chǔ)上尋找相關(guān)基因,分析基因的功能。所用方法有相關(guān)分析方法,模式識(shí)別技術(shù)中的層次式聚類方法,人工智能中的自組織映射神經(jīng)網(wǎng)絡(luò)。此外還有主元分析方法,利用主元分析可以在多維數(shù)據(jù)集合中確定關(guān)鍵變量的特點(diǎn),分析在不同條件下基因響應(yīng)的規(guī)律和特征。進(jìn)一步的分析還可以探索基因的轉(zhuǎn)錄調(diào)節(jié)網(wǎng)絡(luò),發(fā)現(xiàn)基因在環(huán)境或藥物作用下表達(dá)模式的變化,闡明一些基因?qū)α硪恍┗虻恼{(diào)節(jié)作用。利用聚類分析的結(jié)果可以研究基因的啟動(dòng)子,分析表達(dá)模式相同的一類基因的啟動(dòng)子組成特性,通過(guò)多重序列比對(duì)操作,在各個(gè)基因序列的上游區(qū)域?qū)ふ夜餐膯?dòng)子。雖然聚類方法是基因表達(dá)數(shù)據(jù)分析的基礎(chǔ),但是目前這類方法只能找出基因之間簡(jiǎn)單的、線性的關(guān)系,需要發(fā)展新的分析方法以發(fā)現(xiàn)基因之間復(fù)雜的、非線性的關(guān)系。
最近國(guó)際上在基因調(diào)控網(wǎng)絡(luò)分析方面出現(xiàn)了許多有意義的工作,建立起一些基因調(diào)控網(wǎng)絡(luò)的數(shù)學(xué)模型,如布爾網(wǎng)絡(luò)模型、線性關(guān)系網(wǎng)絡(luò)模型、微分方程模型、互信息相關(guān)網(wǎng)絡(luò)模型等,在此基礎(chǔ)研究基因調(diào)控網(wǎng)絡(luò)的動(dòng)力學(xué)性質(zhì)。
2、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)
蛋白質(zhì)是組成生物體的基本物質(zhì),是生命活動(dòng)的主要承擔(dān)者,一切生命活動(dòng)無(wú)不與蛋白質(zhì)有關(guān)。蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定,因此在研究蛋白質(zhì)時(shí)需要了解蛋白質(zhì)的空間結(jié)構(gòu)。目前蛋白質(zhì)序列數(shù)據(jù)庫(kù)中大約有24萬(wàn)個(gè)蛋白質(zhì)的序列數(shù)據(jù),但在結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB中,僅有7500個(gè)蛋白質(zhì)的空間結(jié)構(gòu)數(shù)據(jù)。雖然蛋白質(zhì)結(jié)構(gòu)測(cè)定方法有所改進(jìn),但仍不能滿足實(shí)際的需要。核酸酶變性及重折疊實(shí)驗(yàn),為從蛋白質(zhì)的氨基酸序列預(yù)測(cè)蛋白質(zhì)的三維空間結(jié)構(gòu)提供了實(shí)驗(yàn)基礎(chǔ)。直接從蛋白質(zhì)序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)對(duì)研究蛋白質(zhì)結(jié)構(gòu)與功能關(guān)系十分有用,這也將促進(jìn)蛋白質(zhì)工程和蛋白質(zhì)設(shè)計(jì)的發(fā)展。從原理上講,蛋白質(zhì)序列隱含了蛋白質(zhì)折疊后的空間結(jié)構(gòu),理論上可以從氨基酸序列計(jì)算出自然折疊的蛋白質(zhì)結(jié)構(gòu)。但是由于蛋白質(zhì)多肽鏈可能的構(gòu)象是個(gè)天文數(shù)字,現(xiàn)有的計(jì)算能力不可能搜索整個(gè)構(gòu)象空間,需采用一定的啟發(fā)式方法尋找自由能最優(yōu)或接近于最優(yōu)的構(gòu)象。
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)分為二級(jí)結(jié)構(gòu)預(yù)測(cè)和空間結(jié)構(gòu)預(yù)測(cè)。理論和實(shí)驗(yàn)表明,不同的氨基酸殘基在不同的局域環(huán)境下具有形成特定二級(jí)結(jié)構(gòu)的傾向性,因此在一定程度上二級(jí)結(jié)構(gòu)的預(yù)測(cè)可以歸結(jié)為模式識(shí)別問(wèn)題。二級(jí)結(jié)構(gòu)預(yù)測(cè)的目標(biāo)就是預(yù)測(cè)某一個(gè)片段中心的殘基是α螺旋,還是β折疊,或是其它。在二級(jí)結(jié)構(gòu)預(yù)測(cè)方面主要有以下幾種不同的方法,即立體化學(xué)方法、圖論方法、統(tǒng)計(jì)方法、最鄰近決策方法、基于規(guī)則的專家系統(tǒng)方法、分子動(dòng)力學(xué)方法和人工神經(jīng)網(wǎng)絡(luò)方法。
在空間結(jié)構(gòu)預(yù)測(cè)方面,比較成功的理論方法是同源模型法。該方法的依據(jù)是:相似序列的蛋白質(zhì)傾向于折疊成相似的三維空間結(jié)構(gòu)。這樣,如果一個(gè)未知結(jié)構(gòu)的蛋白質(zhì)序列與另一個(gè)已知結(jié)構(gòu)的蛋白質(zhì)序列足夠相似,那么就可以根據(jù)后者為前者建立近似的三維結(jié)構(gòu)模型。運(yùn)用同源模型方法可以完成所有蛋白質(zhì)10-30%的空間結(jié)構(gòu)預(yù)測(cè)工作。得到蛋白質(zhì)結(jié)構(gòu)以后就可以進(jìn)一步分析研究蛋白質(zhì)的生物功能。