合作媒體

奧勒岡大學開發 AI 模型 解讀 DNA 序列重建生物演化脈絡

商傳媒|葉安庭/綜合外電報導

美國奧勒岡大學(UO)的研究團隊近日開發出一款創新的人工智慧模型,能夠透過分析 DNA 序列,有效重建生物的演化祖源。這項技術有望克服傳統方法在處理龐大基因資料時的限制。

科學家常將基因組比喻為一種語言,由 DNA 的四個字母——A、T、C 與 G——組成基因和染色體的基礎。隨著時間推移,DNA 序列中會累積因演化而產生的變化,稱為「突變」。這些突變通常無害,且能代代相傳,為追溯生物祖源留下線索。傳統上,科學家主要依賴數學和統計方法來解析這些突變,以推斷物種的演化關係。研究主要作者 Kevin Korfmann 指出,儘管這些傳統方法在大多數情況下是「黃金標準」,但在處理大型或不完整的基因組數據集時,速度會變慢且面臨挑戰。

為了解決此問題,研究人員修改了作為 ChatGPT 基礎的早期機器學習架構——GPT-2 模型,使其能高效解讀這套「生命語言」。不同於一般語言模型在大量英文文本上進行訓練,這個 AI 模型是在模擬不同物種(包括細菌、囓齒動物、蚊子和靈長類動物)的基因演化過程中學習。Kevin Korfmann 說明,由於無法重複演化過程,研究團隊的關鍵工作之一就是開發模擬程式,將模擬結果作為深度學習模型的訓練數據。

透過學習突變模式及其他生物學原理,該 AI 模型能夠預測基因對上次共享共同祖先的時間,這在科學上稱為「合併時間」(coalescence time)。舉例來說,帶有大量突變的 DNA 區段可能追溯到遙遠的共同祖先,而突變較少的 DNA 區段則可能共享一個更近期的祖先。這也解釋了為何黑猩猩被視為人類最親近的現存近親,兩者擁有相似的 DNA,而海綿則是最遙遠的親屬,基因分歧已超過七億年。