3月22日,中新网上海 (记者许婧)22日,上海交通大学特聘教授洪亮团队发布最新成果:该团队将AI与蛋白质设计与改造相结合,建立了世界上最大的蛋白质数据集。基于这种数据集训练模式,蛋白质的功能可以准确高效地预测和设计,蛋白质的生产可以从“缓慢的试错”变成“高效、准确的设计”。
蛋白质由氨基酸序列组成,氨基酸序列的长度从几百到几千不等。在AI时代,数据是推动技术进步的核心资源。庞大的蛋白质序列数据集可以帮助模型更好地理解蛋白质的序列、结构和功能关系。Venuss是由洪亮团队建立的蛋白质序列数据集-Pod(Venus-Protein Outsize Dataset)它含有近90亿个蛋白质序列,包含数亿个功能标签,是世界上数据规模最大、功能批注标签最多的数据集,也是美国ESM-C模型训练中另一个行业知名模型21亿个蛋白质序列的4倍。
三月二十二日,洪亮教授在Venus系列模型发布和产业合作峰会上公布了上海交通大学蛋白质功能预测的结果。
洪亮表示,这个数据集构成了一个巨大的“蛋白质矿物”,使人类有可能挖掘新的蛋白质或生物催化剂,帮助生物医学和合成生物学的快速发展;其次,AI模型有望通过学习和掌握大量数据的自然蛋白质进化模式,为AI设计的优秀蛋白质产品提供宝贵的学习资料。
蛋白质是由20种氨基酸组成的聚合物链,这种聚合物链会扭曲并折叠成独特的三维结构。正是这种独特的结构赋予了特定蛋白质的生物功能。为了设计一个成功的蛋白质产品,我们不仅要关注它的三维结构,还要能够成功地预测和设计它的功能。洪亮团队直接瞄准“功能预测”的最终目标,将复杂的蛋白质设计变成一个简单的过程,以需求为导向,配合少量的实验输出结果。
“我们训练了Venus系列模型,不同于DeepMind团队的AlphaFold预测蛋白质结构。该模型学习了自然界蛋白质序列的组织规则及其与功能的关系,其预测蛋白质突变功能的准确性排名行业第一。”洪亮说,Venus系列模型有两个核心功能:“AI定向进化”和“AI挖酶”。这些具有非凡功能的蛋白质在生物技术、医药研发和工业生产中具有很大的应用潜力,可以为相关领域带来创新和突破。
与此同时,全球首款低通量大体积蛋白表达、纯化和功能检测自动化一体机,配合Venus系列模型,可在24小时内不间断完成100多种蛋白的表达、纯化和检测任务,比人工效率提高近10倍,将大大降低R&D过程中的人力、物力和时间成本投入,显著提高蛋白工程和合成生物学研究的效率。
据报道,一种功能优良的蛋白质产品的诞生,通常需要丰富的专家经验来配合成千上万的实验试错。长期以来,蛋白质设计改造时间长、成本高、试错密集,一直是行业难题。
洪亮介绍,结果与行业领先的自动化设备相匹配,已经实现了产业化。例如,Venus系列模型已经对头部公司的碱性磷酸酶进行了体外诊断。(ALP)改造项目。成功优化Venus系列模型 ALP,使其分子活性是国际头部公司产品的3倍,给超敏检测诊断(如心肌梗死、阿尔茨海默病)带来了巨大的价值。目前,改造后 ALP已经进入200L规模放大生产阶段,标志着Venus系列模型已经成功实现产业转型。(结束)
赞一个