科研，期待“AI爱因斯坦”提出好问题

2024-10-08
小编: 网络
正體

分享到：

导读: 东方IC “提出一个问题往往比解决一个问题更重要。”爱因斯坦百年前的话语，在如今这个“答案太多，而问题太少”的AI时代正获得更多共鸣：越来越多科学家认为，“更好提问”是

丝瓜网小编提示，记得把"科研，期待“AI爱因斯坦”提出好问题"分享给大家！

东方IC

“提出一个问题往往比解决一个问题更重要。”爱因斯坦百年前的话语，在如今这个“答案太多，而问题太少”的AI时代正获得更多共鸣：越来越多科学家认为，“更好提问”是人类面对AI的最好办法。

不过，具备超强推理能力的OpenAI o1大模型的问世，让科学家开始期待AI能够提出一个好问题。日前举行的第23届浦江学科交叉论坛上，专家们表示，随着科学研究“第五范式”AI for Science（AI4S）的到来，“AI爱因斯坦”有望提出有价值的科学问题，并拥有理解复杂世界、探索未知规律的能力。

靶点枯竭了吗

靶点是药物研发的源泉，一个新靶点的出现，往往会带来一系列重磅炸弹式的药物。

目前，全世界新药研发面临的共同难题是靶点枯竭。华东师范大学药学院院长、人工智能新药创智中心主任李洪林表示，人体有不到三万个基因，数百年的研究产出了数百万篇研究论文，共获得了近900个靶点、1600多个常用治疗药物。

科学家曾预言2003年人类基因组计划完成后，所有疾病相关靶点都将一网打尽，但事实并非如此。由于靶点有限，热门赛道不可避免出现了“卷靶点”。比如肿瘤靶向治疗领域，“挤”满了250个临床候选药物，肿瘤免疫治疗赛道则有130多个药物在研。

AI视角下，人类基因还有海量的“未解之谜”。李洪林表示，现阶段只有3%的基因被确认为“成药性靶点”，55%的基因仅有生物学机制研究，35%的基因仍为“黑暗基因”，即人类尚未发现它们具有明显功能。

未知即“蓝海”。正如羟甲基戊二酰辅酶A还原酶靶点开启了他汀类降胆固醇药物时代，1996年上市的立普妥至今仍保持着百亿美元的年销售额，科学家期待“第五范式”下的新药研发能够开创一个个新的“蓝海时代”。

推理克服“幻觉”

GPT的出现曾掀起过一阵AI4S的讨论，但是大语言模型有天生短板，比如“幻觉”问题。“这是因为大语言模型本质上是概率预测，并不产生新知识，投喂的数据越多反而会强化它们对某一类问题的刻板印象。”复旦大学人工智能创新与产业研究院副院长、上海科学智能研究院院长助理程远说。

传统科学研究中，人们总是依靠“问题—实验—数据”来获得新发现，这个过程极其依靠专家的经验，有时甚至是“灵光一现”。未来“第五范式”下的科学研究，可形成“AI科研助手 AI操作机器人智能实验环境可信多方协作”的高效迭代。

如何打造一个垂类科学大模型？程远表示，垂类科学大模型有两个特点：一是数据量少，特定领域只有几千、几万条数据；二是迁移性差，在训练集、测试集上表现好的数据，在实际项目中往往表现很差。因此，垂类科学大模型需要由高质量的科学数据、科学实施方法和科学机理一同打造，缺一不可。

基于这样的理念，上海科学智能研究院打造了“燧人”物质世界大模型——将实验数据、合成数据以及量子力学、分子动力学、统计热力学等物理机理都投入模型进行预训练。“当数据和机理矛盾时，拥有推理能力的科学大模型有能力调整对数据的认知，然后它能从牛顿力学走到爱因斯坦相对论。”程远说。

科学家与AI共创

不可否认，科研已成为AI的下一个“主战场”。一份对全球44家顶尖药企AI辅助药研行动的调查显示，近十年来，药企使用AI技术服务行动次数显著增长，41家药企与AI初创公司有合作关系，7家药企与高校展开了合作，诺华、阿斯利康、杨森、辉瑞、葛兰素史克、默克、拜耳等跨国药企在AI药研上行动最积极。

程远所在的上海科学智能研究院，目前已经拥有“伏羲”“女娲”等垂类科学大模型。其中，“伏羲”是全球气象大模型，也是首个全球次季节预测大模型，可提供全球未来15天逐小时预测以及未来60天逐日预测。

“女娲”医药大模型包括DNA大模型和动态蛋白质大模型。其中，DNA大模型以全球最长序列、最细粒度的基因调控关系理解促进生物机制的发现，将应用于药物靶点发现。“女娲”在多个预测指标上的正确率超过了DeepMind的高精度基因表达预测模型Enformer。

根据《2023AI4S全球发展观察与展望》报告，未来几年科研相关领域都将会完成2.0阶段的算法升级，而后将逐渐进入到智能化设计的3.0阶段，最终实现AI4S广泛普及。“AI触发了科研范式转型的突破点。”程远表示，科学家应该了解AI语言，把科学问题转化为可计算的问题。未来，科学家将与“AI爱因斯坦”一起，共同推动创新成果的产生。