13 min read

INDIGO TALK / AI 与科研范式的转型 - EP07

聊聊 AI 大模型如何加速新材料研发并整体影响科学范式的变革
INDIGO TALK / AI 与科研范式的转型 - EP07

INDIGO TALK 第七期,邀请到了来自姑苏实验室的陈忻博士,他一名材料科学家,从斯坦福大学博士毕业后,在美国从事新材料科学研究十多年。凭借其专业背景,我们将一起探讨这次 AI 的变革会如何改变科学研究,大模型如何应用于科研领域,哪些研究方向将得到加速发展,以及新科学范式将是什么样子?一如既往,我们都会在最后讨论下 AGI 的到来对社会的影响。

通过 Spotify 或者 Apple Podcast 收听,请点击这里

小宇宙 APP 收听,请点击这里

Note:这次录制陈忻的网络环境和设备不是很好,所以音频和视频质量有些影响,希望大家谅解!

本期嘉宾

陈忻(材料科学家 苏州实验室研究员)
Indigo(数字镜像博主)

时间轴

00:00:25 - 节目开场的嘉宾介绍
00:02:39 - 什么是材料科学
00:07:16 - iPhone 上有什么典型的新材料?
00:09:39 - 科学界如何看待 AI 中的大语言模型?
00:23:30 - 材料科学与蛋白质生物科学研究的对比
00:27:52 - 关于科学研究的大模型
00:32:40 - 科研范式如果转向连接主义的思考
00:45:50 - INDIGO 的快速回顾
00:46:24 - 关于对高能物理研究的一些脑洞
00:49:52 - AI 会最先加速哪些科研方向?
00:56:00 - AI 会如何影响物理世界的生产与科研?
01:02:52 - 对 AGI 到来的探讨
01:09:00 - INDIGO 的最后总结

内容纲要

陈忻在对谈中提到,很多科学问题,就是实现函数中 a 到 b 的映射求解,例如材料科学就是要把材料的结构映射到材料的性能,如果我知道结构就能立即求解出性能,那这个问题就解决了。DeepMind 的 AlphaFold 在 2021 年底用 AI 的神经网络实现了这个映射求解,输入 DNA 序列,就能解出蛋白质的空间结构,准确率超过了 90%,超过了科学家用各种实验和逻辑推导的结果。这是科学史上具有划时代意义的一次转变,为科研带来了一种全新的范式

这样的结果表明,AI 已经能够感知到那些人类无法通过理性认知去发现的规律,并以此指导其行动。人类不再是我们已知世界中唯一能够发现和感知规律的智能物种了。

以下内容由 GPT-4 根据每个讨论小结的对话内容生成(Prompt:总结下面对话的主要观点,用列表形式来回答)

材料科学与对人类文明的影响

  • 材料包括生产使用的各类原子和分子,如金属、塑料等。
  • 人类发展阶段的定义往往与新材料的利用有关,如石器时代、青铜时代、铁器时代等。
  • 能源代表文明级别,而能源的有效利用很大程度上取决于材料的转化。
  • 新材料催生新技术及生产方式,如硅半导体、光纤、锂电池等。
  • 对材料使用的创新衍生出诸如手机、电子设备等便利产品,增进人们生活质量。
  • 文明的进步伴随着主力材料的变化,如石器、青铜、铁、钢、硅、玻璃和锂等。
  • 新材料和技术的出现促发了范式转变和技术跃迁。

科研范式与 AI 的发展

  • 当前是 AI 加速时代,重点讨论大模型如 large language model 和 large material model。
  • 大模型的发展受益于算法、技术和硬件的进步。
  • AI 在科学领域的发展和应用存在多次波动,从 60 年代的逻辑推理式、80年代的概率式、到现在的机器学习式和大模型时代。
  • 大模型的时代让科学界对AI革命反思和对其未来发展展望更加严谨。
  • AI for Science 的历史可以追溯到20世纪60年代,但在90年代逐渐进入沉寂期。
  • 随着英伟达 GPU 的出现及深度学习技术的发展,AI 技术在科学研究中的应用逐渐恢复。
  • 通过大量数据和神经网络训练,AI 能建立复杂问题的映射关系(如结构到性能)。
  • 2015年以来,数据驱动的研究范式在 AI for Science 中开始兴起。

材料科学与蛋白质生物科学研究的对比

  • AlphaFold 是一个里程碑式的工作,可以通过 DNA 序列预测蛋白质三维结构。
  • 蛋白质结构从数学上来看比较简单,是一个线性的高分子链,每个链有 20 种氨基酸。
  • AlphaFold 的发展意义非常重要,因为可以通过预测蛋白质结构设计出新的分子来阻断病毒等。
  • 蛋白质数据集来源于 Protein DataBank,这是一个国际非盈利组织,各国科学家可以共享蛋白质结构数据。
  • 生物学材料的信息化相对比较简单,但材料科学的信息化要复杂得多,因为分子结构更随机、更自由。
  • 目前材料科学研究需要将研究范围缩小到以一种基准材料为基础的材料系列。

关于科学研究的大模型

  • 当前的 AI(如 ChatGPT)可以学到常识,有时甚至比一些人的常识要好。
  • 许多人缺乏科学常识,即使受过良好教育的人可能因为不再接触科学而缺乏科学常识。
  • 探讨是否可以通过大型模型教会AI科学常识,为科学研究提供支持。
  • 借助大模型的思想和方法,可能在 2-3 年内实现领域通识水平的硕士或博士水平智能。
  • Facebook 发布了名为 Galactica 的科学创新模型,因肇事幻觉被骂回去,判断为不可用。
  • 讨论了 AI21 公司计划在 2024 年推出针对科学论文的训练模型。

科研范式如果转向连接主义的思考

  • GPT 是基于自然语言的,但自然语言有局限性,可能不是描述科学问题最好的方式。
  • 有尝试使用形式化语言或编程语言来描述科学问题,但尚无明显成功,可能是数据量不够多,或模型不够大。
  • 物质世界可以分为不同层次,例如分子级、原子级、亚原子级等,可能需要在这些层次之间建立联系。
  • 学科分类可能是人工的划分,不符合自然规律,应该寻求不同领域知识之间的连接。
  • 随着人工智能的发展,可能会对学术、教育、工作和社会组织带来深刻的变革。

对高能物理研究的一些脑洞

  • 物质的研究可能要按照宏观世界的颗粒度级别分层次,而不是现有的物理化学层次。
  • 利用连接主义模型将物质连接起来,进行数据转化。
  • 在原子核里的世界才是真正的量子世界。
  • 标准模型物理学复杂且粒子命名随意,但可能是一种模型。
  • 没有足够实验数据观察细节,微观物理中训练 AI 可能成为研究工具。
  • 关于粒子的可分性,它可能需要巨大能量才能分解。
  • 粒子加速器越来越大,但测量需要的尺度也变大,当达到普朗克尺度时加速器可能需要银河系那么大。
  • 近几十年内,人类可能无法触及到更高层次的物质研究,但 AI 可能带来前所未有的发现。

AI 会最先加速哪些科研方向?

  • AI 在天气预报方面的应用已经取得显著成果,提高了准确度。
  • AI 在医药和新材料领域有很大的应用潜力。
    a. 加速新药研发,降低社会成本。
    b. 未来 10 年内可能出现至少 10 款 AI 研发的药品。
  • AI在科学领域(例如天文学)的应用也在不断发展。
  • 医药领域能源和新材料将是AI发展最快的方向。
  • 新材料的发展可以帮助解决能源利用率和储能问题。
  • 新材料的应用还包括电子设备(如 AR/VR 和微发光阵列),可能会推动元宇宙概念的实现。

AI 会如何影响物理世界的生产与科研?

  • AI 大模型在数字世界发展迅速。
  • 人类易低估数字世界的发展速度,高估原子世界的发展速度。
  • AI 跃迁超出很多人想象,智能快速出现。
  • AI 科学家认为 AI 可以对物理世界产生更大的影响,黄教主预测下一波浪潮是 AI 对物理世界产生的作用,价值 100 万亿美元。
  • ARK 基金预测 2030 年 AI 对世界产生的价值约为 75 万亿美元。
  • AI 对物理世界的影响处于萌芽期,但已有一些苗头,例如英伟达的计算光刻技术。
  • AI 可能会将人类对物理世界的改进提速,但速度不会超过数字世界。
  • 逐渐关注 AI 对物理世界的改造趋势。
  • 通过 AI 能为物理实验提供更好的实验方案和助手。
  • 将科学大装置与 AI 进行数字化连接,利用 AI 进行科研实验。

对 AGI 到来的探讨

  • 通用智能的到来是不可避免的,只是时间长短问题。
  • AGI 的到来可能会给人类带来正负两方面的影响。
  • 人类有可能是 AGI 的引导程序,对其发展具有指导作用。
  • 人类使用科技和面对新事物会改变价值观和道德标准。
  • 不能预知未来的价值观,需随着科技进步不断调整。
  • 欢迎 AGI 的到来,因为它将有可能帮助人类进入下一个阶段。
  • 无论未来人类是基于硅基还是碳基生命形式,或是它们的组合(如 cyborg),人类都需适应科技进步。

相关参考

蓝光 LED - 蓝光LED的发明人中村修二、天野浩和赤崎勇获得了 2014 年的诺贝尔物理学奖
OLED - 有机发光二极管
Micro LED - 微发光二极管(miniLED、OLED、MicroLED 详解
Polymer - 多聚物是科学和工程的一种重要材料,广泛应用于塑料、橡胶、纤维、胶黏剂、涂料、玻璃,以及生物分子,如蛋白质、核酸和多糖等。
Corning 公司的 Gorilla Glass(大猩猩玻璃)
AlexNet - 是一种卷积神经网络(CNN)架构,它于 2012 年引起广泛关注,因为它在当年的ImageNet 大规模视觉识别挑战赛(ILSVRC)中取得了非凡的成绩。这个神经网络模型由 Alex KrizhevskyIlya SutskeverGeoffrey Hinton 设计。AlexNet 主要应用于计算机视觉任务,特别是在图像分类和物体识别方面表现优越。
ResNet - 全名为 Residual Network(残差网络),是一种深度神经网络(DNN)架构。它最初是由何恺明(Kaiming He)等人于 2015 年提出的,用于解决深度学习中的“梯度消失”和“退化问题”。ResNet 被广泛应用于计算机视觉和图像识别任务等领域,因为它可以构建非常深的模型并在训练时保持较高的性能。
Back Propagation - 是一种广泛应用于深度学习和神经网络的训练算法。它根据神经网络的误差来调整各个层的权重(即连接不同神经元的强度),以便改善模型的性能。
AlphaFold - 是一个由 DeepMind 开发的 AI  系统,它应用了深度学习技术来预测蛋白质结构,也就是预测蛋白质折叠成的三维空间形状。蛋白质结构的预测对于药物设计、疾病研究和生物学领域具有重要意义,但这一任务在过去一直被视为科学界的一个重大挑战。
Protein Databank - wwPDB(全球蛋白质数据库)是一个全球科学组织,它为研究人员提供了一个关于生物大分子(如蛋白质和核酸)的重要资源。它们的主要任务是收集、整理和提供访问这些生物大分子的三维结构信息。这些信息对于了解生物学的基本过程、药物设计和其他领域具有重要作用。
Galactica - Meta 公司训练的帮助科研人员研究的科研模型。
AI21 Labs - 是一个以色列初创公司,专注于研究和开发人工智能(AI)技术,特别是自然语言理解(NLU)和自然语言生成(NLG)领域。
Wolfram|Alpha - 由英国科学家 Stephen Wolfram 创立,专注于计算智能和技术开发。
维特根斯坦 & 符号主义与连接主义
标准模型 - 是描述强力、弱力及电磁力这三种基本力及组成所有物质基本粒子的理论,属于量子场论的范畴,并与量子力学及狭义相对论相容。
PaLM 2 Med - PaLM 2 的医学专用版本
Starship 用的不锈钢 - 300-series stainless-steel
Helion - Sam Altman 投资的核聚变公司
Retro Bio - Sam Altman 投资的可以让人类寿命增加十年的生命科技公司