【摘要】生成式AI正将抗体药物研发从传统的筛选范式,推向基于靶点的逆向设计新纪元。技术已覆盖全长抗体设计,并开始叩响临床试验的大门,但免疫原性仍是核心工程挑战。

引言

2024年底,学术期刊《自然》上的一篇报道,将AI抗体设计这一前沿技术推向了产业聚光灯下。长期以来,生物制药领域,特别是抗体药物的开发,一直遵循着一套经典但效率受限的流程。研发人员如同在浩瀚的生物文库中进行“大海捞针”,过程漫长且充满不确定性。如今,生成式AI的崛起,正在从根本上重塑这一格局。

AI模型不再满足于优化现有分子,而是实现了从靶点结构直接“生成”全新抗体序列的跨越。这种“点靶即生”的能力,意味着研发的起点从“我们有什么”,变成了“我们需要什么”。AI设计或优化的分子已经开始进入临床试验阶段,这标志着一个新时代的开启。本文将从技术范式、核心算法、工程实践、生态变革与现实挑战等多个维度,系统拆解AI全自动抗体设计如何逼近临床战场,并审视其背后的技术深度与工程约束。

🧬 一、范式重塑:从“大海捞针”到“逆向生成”

传统抗体发现流程的本质是一种高通量筛选。无论是经典的杂交瘤技术,还是更为现代的噬菌体展示、酵母展示等文库技术,其核心逻辑都是构建一个巨大且多样化的抗体库,然后通过实验手段从中筛选出能够与目标抗原(靶点)结合的分子。

1.1 传统路径的固有瓶颈

传统路径的局限性是系统性的,主要体现在以下几个方面。

  • 效率低下与周期漫长。构建一个高质量、大规模的抗体文库本身就需要巨大的投入。后续的筛选、鉴定、亲和力成熟以及人源化改造等步骤,环环相扣,整个发现周期通常以年为单位计算。任何一个环节的失败都可能导致项目停滞,沉没成本极高。

  • 高昂的研发成本。大规模的细胞培养、高通量筛选平台的搭建与维护、复杂的分子生物学实验以及大量的试剂耗材,共同构成了高昂的研发门槛。这使得抗体药物的早期发现成为资本密集型游戏。

  • 可成药性挑战。即便筛选到了高亲和力的抗体,其稳定性、溶解度、免疫原性等成药性关键指标也未必理想。后续的抗体工程优化过程同样充满不确定性,需要进行多轮的序列修改和实验验证,进一步拉长了研发战线。

1.2 生成式AI带来的根本性转变

生成式AI的介入,将抗体发现的逻辑从“筛选”彻底转向了“设计”。它不再依赖于一个预先存在的、有限的物理文库,而是将目标锁定在广阔的、理论上近乎无限的氨基酸序列空间。

1.2.1 “逆向生成”的核心逻辑

AI模型的核心工作方式是基于靶点结构的条件生成。研发人员首先提供目标抗原的三维结构信息,特别是抗原决定簇(Epitope)的精确位置和构象。AI模型则将这些信息作为输入条件,直接生成能够与该特定位点精准互补的抗体互补决定区(CDR)序列或整个可变区(Fv)的结构。

这种模式的优势是颠覆性的。它跳过了构建和筛选物理文库的步骤,直接在数字空间中完成高潜候选分子的创生。麻省理工学院科尔索团队的BoltzGen模型便是一个典型例证。该模型在纳米抗体设计任务中,仅需合成并验证十几个候选分子,就能找到亲和力达到纳摩尔级别的优异分子。这种极高的命中率,在传统筛选流程中是难以企及的。

1.2.2 AI与实验的闭环加速

AI的价值不仅在于生成,更在于它能够与高通量实验技术形成一个快速迭代的“设计-构建-测试-学习”(DBTL)闭环。晶泰科技、英矽智能等公司正在积极探索这一路径。AI模型生成一批虚拟候选分子后,可以先通过计算模拟(如分子动力学)对其亲和力、稳定性等性质进行初步评估和排序。

筛选出的最优分子随后通过高通量基因合成与蛋白表达技术进行湿实验验证。实验结果再作为新的训练数据反馈给AI模型,用于下一轮的优化设计。这个闭环的运转速度远超传统流程,能够在数周或数月内完成过去需要数年才能完成的优化工作

🧬 二、技术栈演进:AI抗体设计的核心模型与算法

AI抗体设计的飞速发展,得益于深度学习在蛋白质科学领域的持续突破。其技术栈并非单一模型,而是一个由多种算法构成的工具箱,各自在研发流程的不同环节发挥作用。

2.1 结构预测奠定基础

蛋白质的结构决定其功能。高精度结构预测是实现理性设计的前提。DeepMind的AlphaFold2及其后续版本,彻底改变了蛋白质结构预测领域。它能够基于氨基酸序列,以接近实验测定的精度预测蛋白质的三维结构。

在抗体设计中,结构预测模型扮演着关键角色。

  • 靶点结构解析。对于一些尚未获得实验解析结构的靶点,AlphaFold2可以提供高质量的结构模型,为后续的“点靶设计”提供基础。

  • 抗体-抗原复合物结构预测。模型可以预测给定抗体与抗原的结合模式(Docking),评估其结合亲和力,这对于虚拟筛选和优化至关重要。

  • 可开发性评估。通过预测抗体分子的自身结构,可以评估其表面疏水性、电荷分布等,从而预判其聚集风险和溶解度等成药性问题。

2.2 生成模型担当“创意引擎”

生成模型是AI抗体设计的核心,负责从无到有地创造新的抗体序列和结构。当前主流的技术路线包括以下几类。

2.2.1 基于序列的生成模型

这类模型将氨基酸序列视为一种“语言”,借鉴自然语言处理(NLP)领域的技术。

  • 自回归模型。类似于GPT,这类模型逐个氨基酸地生成序列。它们可以学习到蛋白质序列中隐含的语法规则,生成符合生物学规律的序列。

  • 变分自编码器(VAE)。VAE能够将蛋白质序列压缩到一个低维的、连续的“潜空间”中。通过在这个潜空间中进行插值或采样,可以生成具有新颖特性但整体结构合理的蛋白质序列。

  • Transformer架构。凭借其强大的长距离依赖捕捉能力,Transformer模型能够很好地理解氨基酸序列中的协同进化关系,生成功能完整的抗体可变区。

2.2.2 基于结构的生成模型

这类模型直接在三维空间中进行操作,生成蛋白质的原子坐标,其设计目标更为直接。

  • 图神经网络(GNN)。蛋白质结构可以被抽象为一个图,其中氨基酸是节点,它们之间的相互作用是边。GNN能够学习到蛋白质折叠和分子识别的物理化学规则,用于生成全新的蛋白质骨架或在现有骨架上设计新的序列。

  • 等变神经网络(Equivariant Neural Networks, ENNs)。这类网络在处理三维数据时,其输出能够自然地遵循旋转和平移不变性,这与分子的物理特性高度契合。ENNs在生成蛋白质三维结构时,能够保证其生成的构象在物理上是合理的。

  • 扩散模型(Diffusion Models)。这是当前结构生成领域最前沿的技术。其工作原理是从一个随机的噪声点云开始,通过一个训练好的神经网络,逐步“去噪”,最终还原出一个高度有序、结构合理的蛋白质三维构象。华盛顿大学大卫·贝克实验室开发的RFdiffusion就是该领域的代表作,它在从头设计全新蛋白质方面展现了惊人的能力。

下表总结了不同类型模型在抗体设计中的应用。

模型类别

核心技术

在抗体设计中的主要应用

代表性模型/工具

结构预测模型

Transformer, 等变网络

靶点结构解析、抗体-抗原复合物预测、可开发性评估

AlphaFold2, RoseTTAFold

序列生成模型

VAE, GAN, Transformer

CDR序列生成、抗体可变区设计、亲和力优化

ProGen, ZymCTRL

结构生成模型

GNN, ENNs, 扩散模型

从头设计抗体骨架、基于靶点表位的CDR环设计、全新功能蛋白生成

RFdiffusion, Chroma

2.3 流程图:AI驱动的抗体设计工作流

一个典型的AI抗体设计流程可以由下面的Mermaid图表示。

这个流程清晰地展示了计算设计与实验验证如何紧密结合,形成一个高效的迭代循环,从而根本性地加速了抗体发现过程。

🧬 三、能力边界拓展:从纳米抗体到全功能分子的设计实践

AI在抗体设计领域的进展,遵循着从简单到复杂的演进路径。最初的突破集中在结构相对简单的纳米抗体上,随后迅速扩展到结构和功能都更为复杂的全长抗体。

3.1 “轻骑兵”:纳米抗体的AI设计

纳米抗体(Nanobody)源自骆驼科动物,是仅由一个重链可变区(VHH)构成的抗体片段。它们具有诸多独特优势。

  • 体积小,穿透力强。分子量仅为传统抗体的十分之一,能够穿透致密的组织屏障,如肿瘤微环境甚至血脑屏障,实现更深层次的靶向递送。

  • 稳定性高。结构稳定,耐受极端pH和温度,易于生产和储存。

  • 结构简单,易于工程化。单一结构域使其成为AI模型学习和设计的理想对象。

AI模型,特别是像BoltzGen这样的生成模型,在纳米抗体设计上取得了显著成功。它们能够高效地生成与特定靶点(如病毒刺突蛋白)紧密结合的VHH序列。这些进展不仅为对抗新兴传染病提供了快速反应工具,也为治疗“被忽略疾病”和满足特种需求(如诊断试剂开发)开辟了新途径。

3.2 “重装坦克”:全长抗体的从头设计

全长抗体,如IgG,是当前生物药市场的主流。它们结构复杂,包含两个重链和两个轻链,并通过Fc段介导重要的免疫效应功能,如抗体依赖的细胞介导的细胞毒性作用(ADCC)。设计全长抗体是AI面临的更大挑战,因为它不仅要确保可变区(Fv)与靶点的精准结合,还要保证整个分子的正确折叠、链间配对以及良好的成药性。

近期,NablaBio、Chai Discovery等新兴生物技术公司宣布,它们已经能够利用AI技术从零开始设计出功能性的全长抗体。这一突破意义重大。

3.2.1 攻克“不可成药”靶点

传统抗体药物的开发高度集中于少数几类靶点。而对于像G蛋白偶联受体(GPCR)这类结构复杂、镶嵌于细胞膜上的靶点,开发难度极大。AI模型能够基于GPCR的精细三维结构,设计出能够特异性识别其胞外环等微小、构象动态区域的抗体。这为高血压、糖尿病、精神分裂症等大量与GPCR相关的疾病,提供了全新的治疗策略。

3.2.2 效力比肩重磅药物

这些AI设计的全长抗体,在初步的体外实验中,展现出了与市售重磅药物(Blockbuster)相当甚至更高的亲和力和生物学活性。这证明了AI设计的分子的功能性已经达到了临床应用的标准,不再仅仅是学术概念。

大卫·贝克团队的工作也为此提供了佐证。他们利用深度学习模型,设计出了能够高亲和力结合特定靶点的新型蛋白。虽然这些蛋白本身不一定是抗体,但其背后的设计原理和技术,完全可以应用于抗体工程,为创造具有全新结合模式和功能的抗体药物打开了大门。

🧬 四、生态重构:开源工具与云平台驱动的创新民主化

AI抗体设计的浪潮不仅是一场技术革命,更是一场深刻的产业生态重构。其核心驱动力在于开源工具的普及和云端平台的兴起,这极大地降低了创新门槛,使得抗体药物研发不再是少数大型药企的专属领地。

4.1 开源浪潮拉平技术鸿沟

在过去,先进的计算药物设计工具通常是大型制药公司或少数顶尖学术实验室的专有资产。如今,这一局面正在被彻底改变。

  • 基础模型的开源。以AlphaFold2为代表的基础设施级模型的开源,为整个行业提供了一个高起点的平台。任何具备计算生物学背景的团队,都可以基于这些模型进行二次开发,构建针对特定抗体设计任务的专用工具。

  • 设计工具的共享。大卫·贝克等顶尖科学家的实验室,秉持开放科学的精神,将其开发的RFdiffusion等前沿蛋白质设计工具开源。这意味着,全球的研究者都可以免费获取并使用当前最强大的AI设计引擎,这在几年前是不可想象的。

  • 社区驱动的创新。开源社区的形成,加速了算法的迭代和新应用的探索。开发者们共享代码、交流经验、共同解决技术难题,形成了一个充满活力的创新生态系统。

4.2 云平台赋能中小Biotech

对于许多初创生物技术公司(Biotech)而言,自建大规模计算集群和湿实验平台是一笔巨大的开销。云平台和合同研发组织(CRO/CMO)的成熟,为它们提供了“轻资产”运营模式。

  • 算力即服务(HaaS)。亚马逊AWS、谷歌云等云服务商提供了强大的GPU计算资源,中小团队可以按需租用,无需承担高昂的硬件采购和维护成本,即可运行复杂的AI设计模型。

  • 平台即服务(PaaS)。晶泰科技、维亚生物等公司提供了整合AI设计与实验验证的一站式服务平台。初创公司可以将靶点信息提交给平台,由平台完成从分子设计、合成、到初步药效验证的全流程服务,实现“云端外包”。

  • 差异化创新成为可能。在这种新生态下,小团队可以凭借独特的生物学洞见和创新的AI应用,专注于解决特定问题。例如,针对蛇毒中和蛋白、罕见病靶点等过去因市场规模小、研发投入大而被忽视的领域,现在也成为了可行的创新方向。AI让“小而美”的精准药物开发成为现实

4.3 产业协作模式的演进

大型制药公司(Big Pharma)也积极拥抱这一变革,它们不再仅仅是技术的内部开发者,更是整个生态的整合者和投资者。赛诺菲与Exscientia、罗氏与Recursion等一系列深度合作,表明大型药企正在将AI全面整合进自身的研发体系。它们通过与顶尖AI公司合作,快速引入外部创新,提升内部研发管线的效率和成功率。这种开放协作的模式,使得整个产业的创新活力空前提升。

🧬 五、迈向临床:从代码到药物的“最后一公里”

AI设计的抗体分子,无论在计算机中表现多么完美,最终都必须通过严格的临床前和临床试验来证明其安全性和有效性。这是从代码到药物必须跨越的“最后一公里”,也是当前AI抗体面临的最大挑战所在。

5.1 临床进展的标志性事件

尽管挑战重重,AI抗体已经迈出了走向临床的坚实步伐。

  • 获得临床试验许可。已有多个由AI设计或深度优化的抗体分子,获得了美国FDA等监管机构的临床试验(IND)批准。例如,英矽智能利用其PandaOmics平台发现靶点、Chemistry42平台生成分子的候选药物ISM5939,快速推进到了临床阶段。

  • 进入I/II期临床试验。Generate Biomedicines等公司利用其AI平台优化现有抗体,开发的针对哮喘等适应症的候选药物,已经启动了临床试验。这标志着AI抗体正式进入了“实战检验”阶段。

  • 早期临床成功率的提升。一些公开数据显示,与传统方法相比,AI发现的药物在I期临床试验中展现出更高的成功率。这初步印证了AI在早期阶段提升药物可开发性的潜力。AI可以通过多维度优化,提前规避一些可能导致失败的理化性质缺陷。

5.2 关键瓶颈:免疫原性的“黑箱”

免疫原性是悬在所有生物药头顶的达摩克利斯之剑,对于AI设计的全新蛋白质尤其如此。免疫原性指的是药物分子在人体内引发非预期免疫反应的倾向,轻则影响药效,重则导致严重的不良事件,甚至危及生命。

5.2.1 预测模型的局限性

AI在预测免疫原性方面仍面临巨大挑战。

  • 数据的稀疏性与复杂性。免疫原性是一个极其复杂的生物学现象,受到多种因素影响,包括抗体序列(特别是T细胞表位)、糖基化修饰、给药途径、患者的遗传背景(HLA类型)等。高质量的、标记清晰的免疫原性数据非常稀缺,这限制了监督学习模型的训练效果。

  • 对“全新”结构的预测难题。现有的预测工具大多基于对已知蛋白质序列的分析。对于AI生成的、在自然界中从未出现过的全新序列和结构,这些工具的预测准确性大打折扣。它们很难判断一个全新的肽段是否会被人体的免疫系统识别为“非我”异物。

  • 临床案例的警示。已有报道指出,某款由AI参与设计的肺癌药物,在II期临床试验中因出现严重的免疫相关副作用而被终止。这个案例真实地提醒我们,无论AI模型多么先进,对免疫原性的风险控制都不能有丝毫松懈

5.2.2 实验验证的不可替代性

面对免疫原性的挑战,系统性的实验验证是目前唯一可靠的路径。这包括:

  • 体外评估。通过树突状细胞/T细胞共培养实验,评估候选抗体激活免疫细胞的能力。

  • 动物模型。在人源化小鼠等动物模型中,评估抗体在体内的免疫反应。

  • 临床监测。在临床试验中,密切监测受试者体内的抗药抗体(ADA)水平和相关的免疫不良事件。

AI的角色是提供更高质量的“初稿”,而生物学验证则是确保最终产品安全的“终审”。二者相辅相成,缺一不可。

5.3 体内行为的复杂性

除了免疫原性,抗体在体内的其他行为,如药代动力学(PK,即半衰期、组织分布)和药效动力学(PD),同样难以被AI完全预测。这些参数受到抗体与体内多种蛋白(如FcRn受体)相互作用的影响,最终仍需通过动物实验和人体临床试验来确定。

结论

AI全自动抗体设计正以前所未有的速度,从一个前沿的学术概念,演变为推动生物制药产业变革的强大引擎。它通过将研发范式从“筛选”转变为“设计”,极大地提升了早期发现的效率和精准度。从纳米抗体到全长抗体,AI的设计能力不断突破边界,并开始在攻克“不可成药”靶点方面展现巨大潜力。开源工具和云平台的普及,则进一步催化了整个行业的创新民主化。

然而,我们必须清醒地认识到,AI目前扮演的角色更像一个极其高效的“初稿设计师”,而非能够交付最终产品的“总工程师”。免疫原性预测的难题、体内复杂生物学行为的不可预知性,以及对严格实验验证的绝对依赖,共同构成了AI抗体走向临床战场的现实壁垒

未来的发展路径是清晰的。一方面,AI模型将继续向更高阶的应用场景迈进,如设计可穿透血脑屏障的抗体、开发多特异性抗体等。另一方面,AI技术需要与生物学实验、临床医学进行更深度的融合,通过海量真实世界数据的反馈,不断优化其预测能力,特别是对安全性的把控。

属于生物医药的“ChatGPT时刻”已经到来,它带来了效率的革命。但药物研发的本质,依然是一项需要极致严谨和耐心的“慢功夫”。AI为我们点亮了通往未来的灯塔,而走好脚下的每一步,仍需科学界和产业界共同的审慎与努力。

📢💻 【省心锐评】

AI正将抗体研发从“经验筛选”推向“理性设计”的快车道。它极大地压缩了发现周期,但免疫原性这一核心安全关卡,仍需依赖严谨的实验验证。技术加速创新,但科学的底线从未改变。