

本報訊
利用超過10萬個物種的DNA進行訓練,矽谷非牟利研究機構Arc Institute研究員成功開發機器學習模型Evo 2。深入透徹了解生物代碼,意味著Evo 2可以識別出不同生物體基因序列中的模式,那是實驗研究員需要數年才能發現的。此外,Evo 2能準確識別人類基因中致病的突變,並能設計出與簡單細菌基因組長度相當的新基因組。
Evo 2的開發團隊由Arc Institute與晶片製造商輝達(NVIDIA)科學家組成,並得到史丹福大學、柏克萊加州大學和三藩市加州大學的合作。他們19日發布該模型的預印本,並推出一個名為Evo Designer的用戶友善界面。用戶可透過Arc的GitHub存取Evo 2,它也與輝達BioNeMo框架工作整合。作為Arc Institute與輝達合作一部份來加快科學研究。
Arc Institute又與人工智能(AI)研究實驗室Goodfire合作開發一款「機制可解釋性視覺化工具」(mechanistic interpretability visualizer),揭示了這款模型學習辨識基因組序的重要生物學特徵和模式。Evo團隊正在分享它的訓練數據、訓練與推理程式碼和模型權重,來發布迄今為止最大規模且完全開源的AI模型。
Evo 1接受單細胞基因組的訓練。繼承Evo 1的基礎,Evo 2是生物學領域迄今為止最大規模的AI模型,以來自12萬8000多個完整基因組的9萬3000億核\u82f7酸(nucleotide,DNA或RNA構成的單位)和宏基因組數據進行訓練。除了擴大細菌、古細菌和噬菌體基因組收集外,Evo 2包含來自人類、植物和其他真核生物物種中單細胞和多細胞的基因訊息。
Arc Institute聯合創辦人徐安祺(Patrick Hsu)表示,他們的Evo 1和Evo 2開發代表生成式生物學這個新興領域的關鍵時刻,這些模型使機器能夠用核\u82f7酸語言來閱讀、書寫和思考。他指出,Evo 2對生命之樹有著全面了解,可用於多種任務,包括預測致病突變和設計人工生命的潛在程式碼。