- 此圖譜將從全球數千個地點的超過 1 億個新物種中,收集新基因組數據,將已知的進化遺傳多樣性擴充 100 倍。
- Basecamp Research 與 Anthropic、Ultima Genomics 和 PacBio 合作,並借助 NVIDIA AI 基礎設施的強大算力,致力將原本需要逾 20 年的生物數據收集與分析工作,壓縮到 2 年之內完成。
- 透過訓練 EDEN 模型,團隊發現了新規模定律:當生物數據集越來越廣大豐富,人工智能功能便會飛躍進步,從而打開一道大門,能夠設計出針對不同疾病和療法的全新藥物系統。
德州奧斯汀和加州聖荷西2026年3月20日 /美通社/ — 專注生物設計的前沿人工智能 (AI) 實驗室 Basecamp Research 今日宣佈,正式啟動極具里程碑意義的科學計劃 Trillion Gene Atlas(萬億基因組圖譜),目標是生成並建立達到萬億基因規模的生物數據模型。 此計劃由 Basecamp Research 聯同 Anthropic、Ultima Genomics 及 PacBio 共同發起,並以 NVIDIA AI 基礎設施作為技術核心,目標是從全球數千個地點、超過一億個物種中收集基因組數據,將已知的進化遺傳多樣性擴充 100 倍。
此一目標得以實現,關鍵在於 Basecamp Research 的全球生物多樣性合作夥伴網絡正不斷擴展。 終極目標是為人工智能系統提供海量的多元訓練數據,讓人工智能從生物演化中學習,按需求設計新藥物。
Basecamp Research 聯合創辦人兼行政總裁 Glen Gowers 在奧斯汀舉行的 SXSW 大會上表示:「現今的生物人工智能模型,其訓練基礎僅涵蓋地球生命的一小部分。 Trillion Gene Atlas 將已知的基因範疇大幅擴展,遠超現有公共數據庫所涵蓋的範圍。 在此規模下訓練模型,將為可編程療法設計樹立全新典範。」
這項與人類基因組計劃 (Human Genome Project) 規模相當的項目,在 SXSW 的健康論壇以及聖荷西舉行的 NVIDIA GTC 大會上公佈。
隨著模型規模和運算能力不斷提升,多元數據已成為推動人工智能藥物研發和實際應用基準測試進步的關鍵。 目前所有基於序列的基礎模型均依賴相同公共數據庫的不同版本,其中 80% 在一個載有少於 2.5 億個序列的公共數據庫上接受訓練。
Basecamp Research 在 1 月發佈了 EDEN 基礎模型,當中完全使用其專有基因組數據庫 BaseData™ 進行訓練,成功繞過業界在演化研究上的「數據高牆」。目前 BaseData™ 的規模已超過所有公共資源總和的 10 倍。 透過從 100 萬個新發現的物種中學習前所未有的 100 億個科學新基因,EDEN 為生物人工智能解鎖了關鍵的全新規模定律。
數據集多樣性的大幅擴充,令 EDEN 的能力不再局限於簡單預測,而進一步成為首個能夠直接根據疾病提示指令設計出多元療法的模型。 在濕實驗室驗證中,EDEN 在原代人類 T 細胞中展現零樣本活性,而無需任何人體或臨床數據。 該模型已在多種先進治療模式中成功產生有效成果,開創性地實現人工智能可編程基因插入 (aiPGI) 以插入健康基因,並設計出針對優先病原體而命中率高達 97% 的靶向抗菌肽。
Trillion Gene Atlas 基於此成功經驗,進一步擴大適合人工智能訓練的基因組數據的廣度及背景深度,豐富我們已知的「生物互聯網」。
Basecamp Research 技術總監 Phil Lorenz 補充說:「純粹追求更大的模型絕不足夠。 EDEN 的經驗表明,當注入更加優質且脈絡完整的數據,生物人工智能的性能將沿更陡峭的擴展軌跡顯著提升。 Trillion Gene Atlas,就是要把此成功法則再擴大 100 倍。」
過去六年,Basecamp Research 已在 31 個國家建立起科學合作者網絡,並建立出專為人工智能訓練而設且方便擴展的進化基因組學流程。 透過開創性地結合新的監管與經濟框架,以及完全離網的 DNA 測序技術,公司從傳統實驗室無法觸及的生態系統中收集優質基因組數據。
這些合作夥伴關係的基石,在於交流知識、協助當地建立科研能力,以及符合新興數碼序列資訊規範 (Digital Sequence Information regulations) 的公平取得與利益分享協議 (Access and Benefit-Sharing agreements)。 此合作框架確保公司在合作夥伴地區投資科學基礎建設和人才培訓的同時,也能負責任地大規模收集優質基因組數據。
隨著 Trillion Gene Atlas 啟動,Basecamp 同時宣佈將在智利及阿根廷建立新合作夥伴關係,並進一步深化在南極洲的現有合作,以擴張其全球生物多樣性網絡。
Trillion Gene Atlas 的實現,有賴超高通量短讀長和長讀長 (ultra-high-throughput short- and long-read) 測序以及加速運算的進步。 Basecamp 已與 Ultima Genomics 和 PacBio 合作,提供工業規模的測序服務,包括數據豐富且極度準確的長讀長測序。
Ultima 是超高通量新一代測序 (NGS) 系統的開發商。 Ultima 最新推出的 UG200 系列測序系統,在其獨特的晶圓級測序架構上再作突破,能以極具競爭力的成本,實現工業級規模的高通量全基因組及多組學測序,以支持類似 Trillion Gene Atlas 的計劃。
Ultima Genomics 創辦人兼行政總裁 Gilad Almogy 表示:「一直以來,相比語言或電腦視覺等領域,生物學可說是極缺數據,原因在於研究人員始終缺乏能夠大規模產生數據的合適工具。 我們深信,人工智能將深深影響我們對生物學和人類健康的認知。而G200 系列從設計之初,就是為了提供生物人工智能 (BioAI) 實現此宏願所需而且規模前所未有的數據集。 我們很高興本公司的技術能夠幫助 Basecamp 實現其願景,並推動像 Trillion Gene Atlas 這樣的創新計劃。」
PacBio 總裁兼行政總裁 Christian Henry 表示:「PacBio HiFi 測序可提供超準確的長讀長,保留完整基因組背景,並能在複雜樣本中實現亞種甚至菌株水平的精細解像。 HiFi 數據提供資訊豐富的可靠基礎,生物人工智能模型需要這些基礎來大規模地向自然學習,並推動像 Trillion Gene Atlas 這樣的計劃。」
Trillion Gene Atlas 將借助 NVIDIA 的加速運算基礎設施,來處理達到 PB 量級的龐大遺傳數據。 為此,Basecamp 計劃借助 NVIDIA Parabricks 的強大功能,顯著加快宏基因組 (metagenomic) 的組裝速度。 此次合作聚焦於先進工程和新演算法方式的開發,以使複雜環境樣本的重建方式更加完善。 得益於此,處理數以萬億計的 DNA 鹼基對 (DNA base pairs) 這項原本需要耗時超過 20 年的浩大工程,預計將可在 2 年內大功告成。
合作夥伴預計,通過導入並行數據處理、自動化註解以及大規模模型訓練,這項原本耗時超過 20 年的工作,最終能壓縮至短短 2 年內完成。 這種對測序、組裝、註釋和模型訓練的壓縮,旨在擴大生物基礎模型在治療開發中的性能和範圍。
Anthropic 的加入,屬於為生命科學領域注入新動能的整體策略,有關策略旨在將 Claude 與更多科學平台連接起來,發揮更大效用。 與 Claude for Life Sciences 團隊合作,目標是利用 Trillion Gene Atlas 和 EDEN,使 Claude 成為科學家及臨床醫生更高效的科研夥伴,並支持機構將新科學成果帶給公眾。
此計劃結合 Claude 的先進推理能力、EDEN 的療法設計專長,並運用 NVIDIA 的 CUDA-X Libraries 處理非結構化數據,目標是建立一體化工作流程,能夠解讀複雜的臨床數據,並直接將其應用於療法設計。
Trillion Gene Atlas 建立在三大支柱上:大規模 DNA 測序、全球數據供應合作夥伴關係和先進運算。 當這些基礎與能在複雜數據中進行推理的人工智能系統結合,便能將海量數據轉化為開創性的治療發現。 透過將可供人工智能使用的進化數據再增加 100 倍,Basecamp Research 旨在使藥物設計變得更加快捷、更系統化,將 EDEN 在基因治療和對抗耐藥菌等領域的早期進展進一步擴大。







