[谷歌] 歷史性壹刻!人類基因密碼被谷歌AI破解
1月29日凌晨,2024年諾貝爾化學獎得主、谷歌DeepMind CEO Demis Hassabis帶領團隊研發的AI基因組模型——AlphaGenome,登上了頂級期刊Nature(自然)最新壹期封面。這是繼AlphaFold之後,DeepMind又壹項重磅生命科學研究登上Nature。
AlphaGenome旨在解決生物學中壹個長期未解的難題:人類基因組中約98%的非編碼區域雖然不直接產生蛋白質,卻調控著基因的開啟、剪接與表達,其變異常常與疾病風險密切相關,但難以用傳統手段解析。
為此,DeepMind研究團隊構建了壹個全新AI架構,可輸入百萬鹼基長度的DNA序列,並以單鹼基分辨率,預測RNA表達量、剪接結構、染色質可及性、轉錄因子結合位點乃至叁維結構等近6000項調控特征。
該項目論文題為《Advancing regulatory variant effect prediction with AlphaGenome(借助AlphaGenome技術提升調控變異的效應預測能力)》,也是首次有AI模型實現了對人類基因調控“從序列到功能”的統壹建模。
過去40億年積澱的生命遺傳密碼,如今正被AI工具以“統壹建模”的方式重新解碼。
DeepMind在2025年6月曾通過博客預告此項目,彼時AlphaGenome已向科研界開放預覽API,重點在於構建壹個更具解釋力和泛化能力的DNA序列模型,作為壹種“通用型變異解讀引擎”投入研究使用。
此次正式發表在Nature的版本中,DeepMind團隊不僅完成了全模態性能評估,更在多個疾病變異機制中展示了AlphaGenome的推理能力,包括如何准確預測TAL1致癌突變的激活機制,全面驗證了AlphaGenome在剪接、表達、染色質狀態等關鍵通路上的預測能力。


研究者認為,這壹模型將為罕見病致因定位、新型治療靶點發掘、以及合成生物學設計等方向提供強有力的通用工具。
論文鏈接:https://www.nature.com/articles/s41586-025-10014-0
百萬級DNA輸入和鹼基級預測
突破“長序列”與“高分辨率”難題
AlphaGenome的核心創新之壹,是首次將輸入DNA序列長度提升至100萬鹼基(1Mb),同時在輸出層保持了鹼基級別的預測精度。
這打破了以往模型在“長序列”與“高分辨率”之間的權衡。例如,以往的SpliceAI等模型雖然具備高分辨率,但受限於只能處理1萬鹼基以內的短序列,難以捕捉遠距離調控。
而Enformer等模型雖能處理20萬至50萬鹼基的長序列,卻需犧牲精度,用128bp等為單位分箱預測,無法精准描摹剪接位點、增強子與啟動子的細粒度結構。
在訓練流程上,AlphaGenome采取了“預訓練+蒸餾”的兩階段架構,通過多個TPU並行處理、序列平行化、U-Net結構和Transformer結合,既保留了細節,又擴大了上下文范圍。
[加西網正招聘多名全職sales 待遇優]
還沒人說話啊,我想來說幾句
AlphaGenome旨在解決生物學中壹個長期未解的難題:人類基因組中約98%的非編碼區域雖然不直接產生蛋白質,卻調控著基因的開啟、剪接與表達,其變異常常與疾病風險密切相關,但難以用傳統手段解析。
為此,DeepMind研究團隊構建了壹個全新AI架構,可輸入百萬鹼基長度的DNA序列,並以單鹼基分辨率,預測RNA表達量、剪接結構、染色質可及性、轉錄因子結合位點乃至叁維結構等近6000項調控特征。
該項目論文題為《Advancing regulatory variant effect prediction with AlphaGenome(借助AlphaGenome技術提升調控變異的效應預測能力)》,也是首次有AI模型實現了對人類基因調控“從序列到功能”的統壹建模。
過去40億年積澱的生命遺傳密碼,如今正被AI工具以“統壹建模”的方式重新解碼。
DeepMind在2025年6月曾通過博客預告此項目,彼時AlphaGenome已向科研界開放預覽API,重點在於構建壹個更具解釋力和泛化能力的DNA序列模型,作為壹種“通用型變異解讀引擎”投入研究使用。
此次正式發表在Nature的版本中,DeepMind團隊不僅完成了全模態性能評估,更在多個疾病變異機制中展示了AlphaGenome的推理能力,包括如何准確預測TAL1致癌突變的激活機制,全面驗證了AlphaGenome在剪接、表達、染色質狀態等關鍵通路上的預測能力。


研究者認為,這壹模型將為罕見病致因定位、新型治療靶點發掘、以及合成生物學設計等方向提供強有力的通用工具。
論文鏈接:https://www.nature.com/articles/s41586-025-10014-0
百萬級DNA輸入和鹼基級預測
突破“長序列”與“高分辨率”難題
AlphaGenome的核心創新之壹,是首次將輸入DNA序列長度提升至100萬鹼基(1Mb),同時在輸出層保持了鹼基級別的預測精度。
這打破了以往模型在“長序列”與“高分辨率”之間的權衡。例如,以往的SpliceAI等模型雖然具備高分辨率,但受限於只能處理1萬鹼基以內的短序列,難以捕捉遠距離調控。
而Enformer等模型雖能處理20萬至50萬鹼基的長序列,卻需犧牲精度,用128bp等為單位分箱預測,無法精准描摹剪接位點、增強子與啟動子的細粒度結構。
在訓練流程上,AlphaGenome采取了“預訓練+蒸餾”的兩階段架構,通過多個TPU並行處理、序列平行化、U-Net結構和Transformer結合,既保留了細節,又擴大了上下文范圍。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦: