世界食品網

中國農業科學院微生物與酶工程團隊成功開發基于語言大模型的蛋白高表達預測與設計策略

   2025-02-05 中國農業科學院北京畜牧獸醫研究所813
核心提示:近日,中國農業科學院北京畜牧獸醫研究所微生物與酶工程創新團隊和生物技術研究所微生物蛋白設計與智造創新團隊合作,開發了基于預訓練蛋白語言大模型的蛋白高表達預測與設計新策略,實現蛋白質語言大模型與基因表達深度融合,為高效創制高性能蛋白產品提供了新的思路與工具。……(世界食品網-www.cctv1204.com)
近日,中國農業科學院北京畜牧獸醫研究所微生物與酶工程創新團隊和生物技術研究所微生物蛋白設計與智造創新團隊合作,開發了基于預訓練蛋白語言大模型的蛋白高表達預測與設計新策略,實現蛋白質語言大模型與基因表達深度融合,為高效創制高性能蛋白產品提供了新的思路與工具。相關研究成果發表在《先進科學(Advanced Science)》。
 
  蛋白質的高效、可溶性異源表達是酶蛋白變成酶產品的關鍵核心環節。傳統的策略包括更換表達宿主、表達載體或添加分子伴侶等,但這些策略很大程度上依賴研究人員的經驗并且需要大量的實驗驗證,缺乏對蛋白質序列與其表達之間關系的認識。
 
  本研究基于遷移學習理論,開發了國產化的預訓練蛋白質語言模型MP-TRANS,該模型架構包含8層Transformer模塊,總計擁有87,164,000個參數,預訓練階段高效利用了8張國產NPU計算卡。通過進一步對MP-TRANS模型進行下游任務的微調,構建了蛋白質表達量預測與分子設計平臺。該平臺包括88種不同宿主的表達量預測模型MPB-EXP,平均準確率為0.78,超越了傳統機器學習技術,成為當前支持最多表達宿主的預測模型,可廣泛適用于多類表達宿主。此外,本研究創新性地提出了氨基酸表達指數(AEI)概念,并據此開發了相對氨基酸偏好強度(SRAB)評估工具,為蛋白質表達提供了精確的量化工具。在此基礎上,我們進一步開發了突變體生成模型MPB-MUT,通過智能重構目標蛋白序列,有效提升了其在特定宿主中的表達效率。最終,借助該平臺,實現了木聚糖酶、纖維素酶及PET塑料降解酶在大腸桿菌中可溶性表達量的顯著提升。
 
  該研究得到國家重點研發計劃、國家自然科學基金、中國農業科學院創新工程項目的資助。模型構建過程中,得到河北人工智能計算中心提供的計算資源支持。中國農業科學院北京畜牧獸醫研究所田健研究員、黃火清研究員和中國農業科學院生物技術研究所關菲菲副研究員、劉波研究員為論文共同通訊作者,碩士研究生劉拓宇和張銥洋為論文共同第一作者。
 
  原文地址:
 
  https://onlinelibrary.wiley.com/doi/10.1002/advs.202407664



日期:2025-02-05
 
地區: 北京
反對 0舉報 0 收藏 0 打賞 0評論 0
 
更多>同類資訊
 
鹽池灘羊