核心提示:AI 及其對合成生物學的影響
與AI在合成生物領域的潛力相比,它在合成生物領域的影響有限。
我們已經看到了AI的成功應用,但
AI 及其對合成生物學的影響
與AI在合成生物領域的潛力相比,它在合成生物領域的影響有限。
我們已經看到了AI的成功應用,但仍然局限于特定的數據集和研究問題。AI在該領域目前面對的挑戰,仍然是對更廣泛的應用程序和其他數據集來說有多大的通用性。
數據挖掘、統計和機械建模目前是該領域計算生物學和生物信息學的主要驅動因素,但這些技術與人工智能/機器學習之間的界限往往是模糊的。例如,聚類是一種數據挖掘技術,可以識別基因表達數據中的模式和結構,這些模式可以表明工程修改是否會導致細胞的毒性結果。這些聚類技術還可以作為無監督學習模型,在未標記的數據集中找到結構。這些正在開發中的經典技術和新的AI/ML(機器學習)方法將在未來的領域合成生物中發揮更大的作用和影響,因為屆時人們對于更大的數據集將習以為常。轉錄組數據量每7個月翻一番,蛋白質組學和代謝組學的高通量工作流程越來越可用。
此外,實驗室工作微流控芯片的逐步自動化和小型化預示著未來數據處理和分析將使得合成生物學的生產力倍增。DARPA的協同發現和設計(SD2, 2018–2021) 計劃專注于構建人工智能模型,旨在拉近AI與合成生物學需求的差距。這一點在一些采用該領域SoTA技術的公司中也很明顯(例如Amyris、Zymergen或Ginkgo Bioworks)。
AI和合成生物學在一些方面存在重疊,比如將現有AI/ML應用于現有數據集;生成新的數據集(例如即將到來的NIH Bridge2AI);并創造新的AI/ML技術來應用于新的或現有的數據。雖然SD2在最后一項中有所貢獻,但其仍有一定潛力,未來也有較長的路要走。
人工智能可以幫助合成生物學克服一個大挑戰,即預測生物工程方法對生物主體和環境的影響。由于無法預測生物工程的結果,合成生物學的細胞工程目標(即逆設計)只能通過大量的試錯來實現。人工智能提供了一個利用公開數據和實驗數據來預測對生物主體和環境影響的機會。
為細胞編程設計遺傳結構。 許多合成生物學領域的研究都集中在基因結構/基因線路的工程上,這與設計電子電路面臨著的挑戰大相徑庭。
人工智能技術結合了已知的生物物理、機器學習和強化學習模型,能夠有效預測結構對主體的影響,反之亦然,雖然已經頗為強大,但仍然有改進空間。而在機器輔助基因線路設計方面,已有各種人工智能技術投入應用,其中包括專家系統、多智能體系統、約束推理、啟發式搜索、優化和機器學習。
基于序列的模型和圖卷積網絡在工程生物系統領域也得到了關注。因子-圖神經網絡已被用于將生物知識納入深度學習模型。圖卷積網絡已被用于從蛋白質與蛋白質相互作用網絡中預測蛋白質的功能。基于序列的卷積和遞歸神經網絡模型已被用于識別蛋白質的潛在結合位點、基因的表達和新的生物結構的設計。人工智能最有用之處是應用于開發綜合模型,而這將減少需要進行的實驗或設計的數量。
代謝工程。在代謝工程中,人工智能已經應用到生物工程過程的幾乎所有階段,例如人工神經網絡已被用于預測翻譯起始位點,注釋蛋白質功能,預測合成途徑,優化多個外源基因的表達水平,預測調控元件的強度,預測質粒表達,優化營養濃度和發酵條件,預測酶動力學參數,了解基因型與表型的關聯,預測CRISPR的指導效果等階段。聚類已被用于發現次生代謝物生物合成基因聚類和識別催化特定反應的酶。集合方法已被用于預測途徑動態、最優生長溫度,并在定向進化方法中找到賦予更高適應度的蛋白質。支持向量機已被用于優化核糖體結合位點序列和預測CRISPR引導RNA的行為。在代謝工程的各階段中,人工智能最有希望被應用于流程放大,這是該領域的一個重大瓶頸,以及下游處理(例如從發酵液中系統提取所產生的分子)。
實驗自動化。在幫助自動化實驗室工作和推薦實驗設計方面,人工智能的影響已經遠遠超出了DBTL周期的“學習”階段。自動化正逐漸在實踐中變得十分重要,因為自動化是獲得訓練人工智能算法所需的高質量、大容量、低偏差數據的最可靠的方式,自動化還使得可預測的生物工程成為可能。自動化提供了將復雜協議快速轉移和擴展到其他實驗室的機會。例如,液體處理機器人站構成了生物鑄造廠和云實驗室的支柱。這些鑄造廠已經能夠看到在未來自身會被機器人和規劃算法顛覆,從而獲得快速迭代通過DBTL周期的能力。語義網絡、本體和模式徹底改變了設計和協議的表示、通信和交換。這些工具支持快速實驗,并以結構化、可查詢的格式生成更多的數據。在一個大多數內容要么丟失,要么被人工記錄在實驗室筆記中的領域,人工智能的前景推動領域發生重大變化,從而減少生成數據的障礙。
微流體是宏觀液體處理的替代品,具有更高的通量、更少的試劑消耗和更便宜的結垢。事實上,微流體可能是實現自動駕駛實驗室的關鍵技術,它有望通過使用人工智能增強自動化實驗平臺,大大加快研發過程。自動駕駛實驗室涉及完全自動化的DBTL周期,其中人工智能算法會根據之前的實驗結果進行假設,積極尋找有前景的實驗程序。因此這可能是合成生物領域人工智能研究人員的最大機會。雖然自動DBTL回路已經在液體處理機器人工作站中得到了證明,但微流控芯片提供的可擴展性、高通量能力和制造靈活性可能會提供最終的技術飛躍,使人工智能成為現實。
我們已經看到了AI的成功應用,但仍然局限于特定的數據集和研究問題。AI在該領域目前面對的挑戰,仍然是對更廣泛的應用程序和其他數據集來說有多大的通用性。
數據挖掘、統計和機械建模目前是該領域計算生物學和生物信息學的主要驅動因素,但這些技術與人工智能/機器學習之間的界限往往是模糊的。例如,聚類是一種數據挖掘技術,可以識別基因表達數據中的模式和結構,這些模式可以表明工程修改是否會導致細胞的毒性結果。這些聚類技術還可以作為無監督學習模型,在未標記的數據集中找到結構。這些正在開發中的經典技術和新的AI/ML(機器學習)方法將在未來的領域合成生物中發揮更大的作用和影響,因為屆時人們對于更大的數據集將習以為常。轉錄組數據量每7個月翻一番,蛋白質組學和代謝組學的高通量工作流程越來越可用。
此外,實驗室工作微流控芯片的逐步自動化和小型化預示著未來數據處理和分析將使得合成生物學的生產力倍增。DARPA的協同發現和設計(SD2, 2018–2021) 計劃專注于構建人工智能模型,旨在拉近AI與合成生物學需求的差距。這一點在一些采用該領域SoTA技術的公司中也很明顯(例如Amyris、Zymergen或Ginkgo Bioworks)。
AI和合成生物學在一些方面存在重疊,比如將現有AI/ML應用于現有數據集;生成新的數據集(例如即將到來的NIH Bridge2AI);并創造新的AI/ML技術來應用于新的或現有的數據。雖然SD2在最后一項中有所貢獻,但其仍有一定潛力,未來也有較長的路要走。
人工智能可以幫助合成生物學克服一個大挑戰,即預測生物工程方法對生物主體和環境的影響。由于無法預測生物工程的結果,合成生物學的細胞工程目標(即逆設計)只能通過大量的試錯來實現。人工智能提供了一個利用公開數據和實驗數據來預測對生物主體和環境影響的機會。
為細胞編程設計遺傳結構。 許多合成生物學領域的研究都集中在基因結構/基因線路的工程上,這與設計電子電路面臨著的挑戰大相徑庭。
人工智能技術結合了已知的生物物理、機器學習和強化學習模型,能夠有效預測結構對主體的影響,反之亦然,雖然已經頗為強大,但仍然有改進空間。而在機器輔助基因線路設計方面,已有各種人工智能技術投入應用,其中包括專家系統、多智能體系統、約束推理、啟發式搜索、優化和機器學習。
基于序列的模型和圖卷積網絡在工程生物系統領域也得到了關注。因子-圖神經網絡已被用于將生物知識納入深度學習模型。圖卷積網絡已被用于從蛋白質與蛋白質相互作用網絡中預測蛋白質的功能。基于序列的卷積和遞歸神經網絡模型已被用于識別蛋白質的潛在結合位點、基因的表達和新的生物結構的設計。人工智能最有用之處是應用于開發綜合模型,而這將減少需要進行的實驗或設計的數量。
代謝工程。在代謝工程中,人工智能已經應用到生物工程過程的幾乎所有階段,例如人工神經網絡已被用于預測翻譯起始位點,注釋蛋白質功能,預測合成途徑,優化多個外源基因的表達水平,預測調控元件的強度,預測質粒表達,優化營養濃度和發酵條件,預測酶動力學參數,了解基因型與表型的關聯,預測CRISPR的指導效果等階段。聚類已被用于發現次生代謝物生物合成基因聚類和識別催化特定反應的酶。集合方法已被用于預測途徑動態、最優生長溫度,并在定向進化方法中找到賦予更高適應度的蛋白質。支持向量機已被用于優化核糖體結合位點序列和預測CRISPR引導RNA的行為。在代謝工程的各階段中,人工智能最有希望被應用于流程放大,這是該領域的一個重大瓶頸,以及下游處理(例如從發酵液中系統提取所產生的分子)。
實驗自動化。在幫助自動化實驗室工作和推薦實驗設計方面,人工智能的影響已經遠遠超出了DBTL周期的“學習”階段。自動化正逐漸在實踐中變得十分重要,因為自動化是獲得訓練人工智能算法所需的高質量、大容量、低偏差數據的最可靠的方式,自動化還使得可預測的生物工程成為可能。自動化提供了將復雜協議快速轉移和擴展到其他實驗室的機會。例如,液體處理機器人站構成了生物鑄造廠和云實驗室的支柱。這些鑄造廠已經能夠看到在未來自身會被機器人和規劃算法顛覆,從而獲得快速迭代通過DBTL周期的能力。語義網絡、本體和模式徹底改變了設計和協議的表示、通信和交換。這些工具支持快速實驗,并以結構化、可查詢的格式生成更多的數據。在一個大多數內容要么丟失,要么被人工記錄在實驗室筆記中的領域,人工智能的前景推動領域發生重大變化,從而減少生成數據的障礙。
微流體是宏觀液體處理的替代品,具有更高的通量、更少的試劑消耗和更便宜的結垢。事實上,微流體可能是實現自動駕駛實驗室的關鍵技術,它有望通過使用人工智能增強自動化實驗平臺,大大加快研發過程。自動駕駛實驗室涉及完全自動化的DBTL周期,其中人工智能算法會根據之前的實驗結果進行假設,積極尋找有前景的實驗程序。因此這可能是合成生物領域人工智能研究人員的最大機會。雖然自動DBTL回路已經在液體處理機器人工作站中得到了證明,但微流控芯片提供的可擴展性、高通量能力和制造靈活性可能會提供最終的技術飛躍,使人工智能成為現實。