学者访谈丨“AI4S”如何做大科研的蛋糕?

  在未来的20年内,有50%的概率,数字计算会比我们更聪明,很可能在未来的一百年内,它会比我们人类聪明得多。”

  从1936年艾伦·麦席森·图灵提出图灵机的构想开始,人类从未停止对人工智能的思考和探索。继AlphaGo和ChatGPT之后,AI for Science(AI4S),即人工智能驱动的科学研究,再一次吸引了人们的关注。

  2023年9月,“伏羲”气象大模型在开学典礼上正式亮相;2024年11月,复旦大学附属华山医院团队完成对人类健康与疾病蛋白质组图谱的绘制;2025年3月,在华山医院,全球首批通过脑脊接口让瘫痪者重新行走的手术在第4例患者身上成功实施……AI与科学研究的深度融合,已然成为创新的重要推动力。

  同时,从2024学年秋季学期开始,复旦大学面向所有专业和学科开设超100门“AI大课”,迈出从“AI4S有组织科研”向“AI+有组织育人”延伸的重要一步。

  那么,究竟什么是AI4S?作为科学研究的“第五范式”,它和其他范式有什么区别,又将开辟怎样的可能性?我们邀请了计算机科学、医学、新闻传播三个领域的学者,与我们共同探讨AI4S的过去、现在与未来。

  复旦大学计算机科学技术学院教授,主要研究方向包括人工智能、图像处理、生物认证、智能交通等。

  复旦大学智能医学研究院研究员,主要从事表观遗传学和生物信息学前沿基础科学研究。复旦大学智能医学研究院医学科研数据中心负责人。

  AI4S是个新概念,指人工智能在科学研究和应用中的赋能。图灵奖获得者、数据库专家吉姆-格雷(Jim Gray)提出的科学研究的四种范式是指实验范式、理论范式、信息计算加数据计算、数据科学。而AI4S所代表的“第五范式”就是利用人工智能来形成海量猜想。

  传统科学研究一般要经历四个环节:观测数据、根据数据作出假设、设计并实施实验以验证假设、分析结果得出结论。AI4S在观测和假设之间增加了一个环节,即利用人工智能从观测数据中提炼假设。凭借强大的运算和推理能力,它能比人类更快、更多地提出假设,加速科研进程。

  由于AI4S的概念非常宽泛,学者们可以选择不同的研究方向。我个人关注的是图像处理,也是AI4S应用的重要领域之一。

  2021年6月,复旦大学成立的智能医学研究院就是AI4S在医学跨学科应用方面的重要成果。研究院的医学科研数据中心主要利用人工智能技术对生物医学数据进行挖掘和分析,提供科学计算支持。

  AI制药方面,我们正在尝试将传统的计算机辅助药物设计(CADD)和新兴的人工智能驱动的药物发现(AIDD)两者结合应用。我做的表观遗传机制研究(注:指在DNA序列没有发生改变的情况下,染色质化学修饰和蛋白质调控等调控基因表达的机制),依赖传统研究手段往往需要投入大量时间精力,并且效果有限。随着AI4S兴起,我们开始尝试运用人工智能来解决一些基础性问题。

  在临床医学领域,正在小规模试用的隐私计算项目很有前景。过去,医院诊治了同类疾病,拥有部分患者数据,但由于各医院间的数据无法共享,数据量不足,医生难以从中发现新的规律。而隐私计算技术可以将不同医院的数据汇集到共享平台,实现数据“可用不可见”,既能保护每家医院数据的隐私,又能产出综合分析结果,为医学研究提供了更丰富的数据支持。

  ▲2024年10月,复旦大学智能医学研究院与张江生命科学国际创新峰会联合主办的第一届国际智能医学会议在上海召开/图源:复旦大学智能医学研究院

  过去两年,AI4S的主流无疑集中在大模型领域。大模型是2017年左右开始流行的概念,主要指依靠大数据算力和深度神经网络形成的技术。目前,国外的生成式预训练转换器GPT系列模型正在不断发展,国内也有很多相关的研究进展。例如,百度研发智能体时采用了垂直领域的策略,每个智能体专注服务某个具体应用领域。

  我印象深刻的大模型应用是AlphaFold系列。这是Google旗下前沿人工智能企业DeepMind开发的一个蛋白质预测模型,能够预测蛋白质的三维结构。蛋白质的三维结构是由其一级结构(即氨基酸的排列顺序)决定的,知道了蛋白质的一级结构,就可以预测其三维结构。但在过去,预测蛋白质的三维结构需要昂贵的冷冻电镜。如今,人工智能企业DeepMind通过一系列大模型,能基于一级结构预测蛋白质的三维结构。这一突破节省了人力物力,使结构生物学家能够将研究重点转向蛋白质的功能预测。

  ▲AlphaFold3对蛋白质(蓝色)与DNA双螺旋(粉色)结合的分子复合物的预测,灰色部分为真实结构/图源:网络

  我在美国读了计算机科学博士,回国后又在清华大学做传播学博士后。我认为AI4S的赋能主要体现在跨学科研究方法创新和与计算机科技融合这两大方面。一直以来,我们的研究范式主要受到四个因素的驱动:人文社科(如传播学)理论、大数据、计算机技术和人工智能与人类智能的智能融合方法。这种全新的赋能让我们能攻克很多曾经的难题,也能与许多其他学科的专家一起建设跨学科团队,开展合作研究。可以说,基于人工智能的跨学科研究将是大势所趋。

  大数据智能融合传播,是AI4S或AI4SS(AI for Social Science,“人工智能驱动的社会科学研究”)在传播学领域的代表性应用,大致分为基于生成范式的研究和基于判别范式的研究。

  判别研究重点关注理论价值,但不同于一般意义上的计算传播研究,它通过前述的四大驱动,建构新的跨学科研究方法(包括相应的智能算法和软件模块),从而对传播现象提供全新的描述、解释和预测。生成研究则主要围绕传播实践展开,力求解决实际问题。它依托大数据以及人类智能与人工智能的智能融合,生成具体的传播媒介和传播讯息,进而创新传播模式,显著提升传播效果。

  例如,我的团队在完成实证研究的同时,实现了研究成果的转化。我们首创并研发了多个智能传播大数据平台,如“全球城市品牌智能大数据库”、“互联网媒体新闻报道人工智能预测预警大数据库”等。

  ▲2023年中国内地省会城市及计划单列市城市品牌全球媒体国际传播影响力报告(节选)/图源:“大数据智能传播”公众号

  研究过程中遇到难题是不可避免的。我们做的很多研究在国内外都没有现成的解决方案,只能依靠自主创新来推进研究和技术研发。

  在AI4S和AI4SS领域,大数据智能融合传播主要有两个关键技术亟待突破。一是在生成研究方面,需要致力于面向传播实践需求的多模态高阶结构的生成和优化。因为传播过程中涉及到的内容和形式非常复杂,如何高效地迭代生成符合实际需求的传播讯息,仍是技术难题。二是在判别范式方面,需要优化可解释的机器学习驱动的非线性预测和因果推断技术。这是为了更好地理解传播现象背后的机制,帮助我们建立更具解释力的理论框架,推动传播学理论的创新。

  从第一次人工智能热潮开始,人工智能领域的学者们普遍持乐观态度。很多人认为,我们总能找到方法把所有问题程序化。而一个问题能程序化,我们就能找到解决方案。但实际上,能不能将问题程序化,本身是值得探讨的问题。比如说大脑中有很多一闪而过的念头,它们是由大量大脑细胞共同参与的复杂过程产生的,但我们往往没有意识到这些细节。在开发人工智能时,我们发现并非所有的思维过程都能被程序化,很多看似简单的、基于人类经验和直觉的判断,很难用公式或算法来表达,这就带来了不少挑战。

  像围棋,看似非常复杂,但它的规则和过程相对明确,可以被程序化,人工智能就表现得非常出色。反过来,人工智能很难理解一些人类的常识性问题,比如“下雨了就该带伞”。因为这类常识背后包含了大量隐性信息和情境判断,不容易被简单地转化为算法。

  只要能够合理利用,人工智能几乎可以在大部分行业中产生作用。以数学为例,DeepMind的新模型——AlphaProof和AlphaGeometry,已经能够完成一些数学证明了。2024年这些模型在国际数学奥林匹克竞赛(IMO)中获得了28分,达到了银牌水平。

  物理学方面,人工智能的应用也非常广泛。例如,拍摄黑洞照片运用了人工智能技术中的超分辨率技术,通过多台天文望远镜分别从不同角度观测黑洞,然后将数据拼接起来,最终获得更清晰、更高分辨率的黑洞图像。

  人工智能在化学实验中也有优势。过去学生做实验时,可能需要24小时待在实验室监控实验过程,一旦出现错误就需要花费时间和精力来弥补。而借助人工智能进行大量仿真实验,可以有效减少人为操作的失误和实验时间,不仅提高实验效率,还能为研究人员节省大量的精力和资源。

  我不仅看好AI4S或AI4SS的发展,同时也看好S4AI(Science for AI,“自然科学驱动的人工智能研究”)和SS4AI(Social Science for AI,“社会科学驱动的人工智能研究”)的前景,尤其是未来两者彼此赋能的潜力。

  一方面,人工智能不仅仅是技术工具,它为科学研究带来了新的思维方式、方法论和研究范式。另一方面,科学研究也在不断为AI的技术创新提供灵感。例如,神经网络、种群进化、觅食寻径等计算机仿生学隐喻,启发了深度学习、进化算法、优化计算和集群智能等技术的产生,对AI的体系架构和运行机制提供指导,推动了人工智能的核心技术创新。语言学和认知科学规律,如人类的注意力机制等,也为人工智能的智能语义嵌入(注:一种自然语言处理技术,用于将文字符号的语义表示为向量的形式)和Transformer模型(注:一种基于注意力机制的序列模型,最初由谷歌大脑和多伦多大学的联合研究团队提出并应用于机器翻译任务)的发展提供了画龙点睛之笔。

  学校推动人工智能教育的用心值得肯定。如今人工智能的影响非常深远,可能会以意想不到的方式取代某些职业。青年人怎么提升抗风险能力呢?也许答案就是多学点东西。在学习和研究中,掌握AI技术的人肯定比不懂AI的人更具竞争力。

  然而人工智能的精通存在门槛。数学是学习AI的“语言”。如果数学或编程基础不够扎实,可能在学习中对AI只有大概了解,无法深入理解技术细节和原理。如果同学们希望通过AI课程提升自己的能力,可能需要额外阅读相关书籍,特别是数学方面的基础知识。

  希望从事AI交叉领域研究的同学,首先要确保对自己所在领域的基础知识扎实。只有在对本专业知识有深刻理解的基础上,才能够有效地应用AI技术,推动领域内的创新和发展。

  同学们要培养跨学科胸怀,接纳跨学科的交叉融合赋能,不要局限于自己专业领域的一亩三分地,或过于执着建造“护城河”和“壁垒”。当人工智能到来时,即使在计算机科学内部的一些子领域都可能“无险可守”。

  大家可以注重培养计算机思维和方法,不仅是学习具体技术,更是学习一种思考和解决问题的方式。对跨学科交叉融合赋能,简单的拼盘式组合往往效果有限,如果同学们能结合计算机思维和方法,在自己专业领域的研究和实践中灵活运用AI技术,就抓住了计算机科技驱动创新的“牛鼻子”。

  建议同学们修读些 AI 相关的课程,应用大模型的知识,甚至静下心来编写代码。各专业的学生都应该把 AI当作工具学起来,跟自己的专业结合,想一想这个领域里存在的问题,哪些可以通过 AI 解决?如果某一天遇到问题,能想到“我可以用这个方法来解决”,那时你的价值就体现出来了。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

返回列表