生物信息學(xué)數(shù)據(jù)分析的作用主要包括:
?、儆糜谏镄畔W(xué)數(shù)據(jù)分析的建立與查詢(xún):包括基因和基因組數(shù)據(jù)庫(kù)(如Genbank、EMBL核酸序列數(shù)據(jù)庫(kù)、GDB等)、蛋白質(zhì)數(shù)據(jù)庫(kù)(如PIR、PSD、SWISS-PROT、PROSITE、PDB等)以及功能數(shù)據(jù)庫(kù)(如KEGG、TRRD、TRNSFAC等)。
?、谟糜谛蛄斜葘?duì):即蛋白質(zhì)序列之間或核酸序列之間的比對(duì)。包括序列的兩兩比對(duì)和多序列比對(duì)。
?、酆怂崤c蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測(cè)分析。
?、芑蚪M序列信息分析。
?、莨δ芑蚪M相關(guān)信息分析:包括大規(guī)模基因表達(dá)譜分析、基因組水平蛋白質(zhì)功能綜合預(yù)測(cè)。
具體而言,生物信息學(xué)數(shù)據(jù)分析發(fā)現(xiàn)中應(yīng)用的數(shù)據(jù)挖掘技術(shù)包括:
①構(gòu)選基因數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù):由于廣泛多樣的DNA數(shù)據(jù)高度分?jǐn)?shù),為了便于對(duì)DNA數(shù)據(jù)庫(kù)進(jìn)行系統(tǒng)分析,需要利用數(shù)據(jù)挖掘中的數(shù)據(jù)清理和數(shù)據(jù)集成的方法來(lái)構(gòu)造集成式數(shù)據(jù)倉(cāng)庫(kù)和開(kāi)發(fā)分布式數(shù)據(jù)庫(kù)。
②序列模式分析:DNA序列間的相似搜索和比較是基因分析中重要的問(wèn)題之一。由于基因數(shù)據(jù)是非數(shù)字的,所以數(shù)據(jù)挖掘中針對(duì)非數(shù)字的序列模式分析方法在基因序列比對(duì)中能起到非常重要的作用。
?、坳P(guān)聯(lián)分析:大部分疾病不是由一個(gè)基因引起的,而是由多個(gè)基因組合起來(lái)共同起作用的結(jié)果。因此采用數(shù)據(jù)挖掘中的關(guān)聯(lián)分析方法有助于發(fā)現(xiàn)基因組間的,進(jìn)而揭示人類(lèi)疾病背后的基因原因。
④可視化:基因的復(fù)雜結(jié)構(gòu)和序列模式常常需要由各種可視化工具以圖、樹(shù)、鏈等形式來(lái)表現(xiàn)??梢暬ぞ哂兄谏镄畔⒌哪J嚼斫夂椭R(shí)發(fā)現(xiàn)。