2025年11月06日,高歌老师为同学们带来了一场题为《数字细胞:从设计到实现》的精彩讲座。本次讲座中,高老师结合其深厚的数学与计算背景,以独特的视角系统阐述了在生命科学中,计算建模从分子尺度到细胞尺度所面临的本质挑战,并深入剖析了当前构建“数字细胞”的知识驱动和数据驱动两条主流路径,以及他们各自的局限。
细胞作为生命最基本的单元,其不仅仅是生物学研究的核心,更在计算科学中代表了一个独特而复杂的研究对象。从计算的角度来看,尺度是决定一个计算问题难度的关键因素,并因为不同的尺度,而带来计算上不同类型的挑战。目前,许多计算方法都在尝试对细胞这一多层次、跨时空、高维度的非线性复杂体系进行精细化模拟,而细胞尺度也是目前绝大多数计算方法所能挑战的最大体系。本次讲座中,高老师正是围绕这一问题,探讨了如何通过计算方法对细胞进行建模,以及构建数字细胞的两种模式所面临的困境。
回顾历史,计算生物学的工作最早集中在分子层面,这源于分子其相对较小的尺度而自然带来的相对“好处理”的特性。基于物理和化学的原理,对于小尺度的分子,可以使用如薛定谔方程,密度泛函等方法做到对原子及原子-原子间相互作用的精确计算求解,从而实现分子尺度上的精细化模拟。对于更大一点的生物大分子,早在上世纪五六十年代,科学家就已开始了生物大分子结构上的研究工作,例如桑格两次获得诺贝尔科学奖,其第一个奖项便是关于蛋白测序。这表明在生命科学研究的相对早期,生物大分子尺度的问题就已经相对具有可解性。然而,细胞并非简单分子的随机组合,它是一个具有自身调控规律的复杂体系。细胞作为连接分子和组织的承上启下的尺度,其调控系统是一个多层次、跨时空、非线性、高维度的体系,这使得分子层面的计算和研究手法难以直接应用于细胞尺度的建模。
为解决细胞尺度的研究挑战,“数字细胞”的构建成为热点方向。该领域早期工作主要采用知识驱动模式,以日本的E-Cell和美国的Whole-Cell Model为代表。其核心思想是将已有的生物学知识,如信号转导通路、代谢通路等,转化为一套微分方程组。知识驱动的优点在于其内容相对清晰且具有可解释性。然而,这种模式付出的代价是巨大的规模问题。微分方程组在细胞体积增大时将变得难以求解,从而限制了计算模型的扩展性。更深层的挑战在于知识的不完备性:知识驱动的前提是有完备的知识纲领,而我们目前缺乏关于一个细胞的完整知识体系。高老师以发表在 Cell 上的针对最小合成细胞JCVI-syn3.0的全细胞模型工作为例,该模型仅有493个基因,但其成功运转已依赖于大量生物学直觉和近似方法来为知识空白“打补丁”,这充分说明了知识驱动模型在面对生物复杂性时难以跨越规模和知识完备性的障碍。
随着高通量、多模态数据的爆发式增长,以及计算方法的进步,以数据驱动为代表的另一条计算思路逐渐成为计算建模方法的热点。这种思路的核心在于利用机器,包括人工智能算法,从海量多模态数据中学习其内在的关联模式,以实现细胞模型的构建。高老师提到,现在很多人都在谈论这一方向,并且目前也已经成为全球性的前沿趋势。目前人们希望通过类似基于注意力机制的Transformer等人工智能算法,能够像语言模型通过学习上下文关系来预测和生成文本一样,希望机器也能够学习出细胞调控的规律。
然而,数据驱动的方法面临着一个更为致命的根本性挑战,即观测本身的破坏性。人们目前所有的细胞分化轨迹都是通过对不同细胞在不同时刻进行破坏性测量后推断出的“快照”。截至目前,人们从未连续地观测过一个细胞的完整分化历程。高老师形象地指出,这种观测方式如同试图用静态图片去推断流体动力学的规律一样困难。这种观测上的本质局限,使得计算模型在试图还原真实的连续生物学过程时,面临着巨大的挑战。
本次高老师的讲座深刻揭示了计算生物学在跨越分子到细胞尺度时,知识与数据驱动两种模式所面临的障碍。无论是知识的规模化不完备,还是数据驱动方法中观测的破坏性,都指出构建一个真正意义上的“数字细胞”仍是一个充满挑战的科学问题。在讲座的结尾,高老师指出,判断我们是否真正理解了细胞调控规律的终极标准,在于能否实现精确的重编程,将一个细胞状态精确地转移到另一个状态。这一目标不仅指明了计算生物学和人工智能在生命科学领域需要努力和证明的方向,也鼓励同学们超越现有工具和算法的表象,深入探究复杂生命体系背后的可计算性边界和科学原理。