科学家推出AI虚拟疾病生物学家，自主发现并验证两大全新抗癌靶点

药物研发是一条漫长而充满挑战的道路。其失败的核心症结，往往并非化合物本身的问题，而是源于最初的假设——对靶点的生物学作用、疾病相关性或成药性的判断出现了偏差。这一制约在药物研发领域的“源头”难题，长期以来依赖于疾病生物学家们通过繁重的人工劳动，整合海量、多样的生物医学数据，以“直觉驱动”的方式提出可供验证的假说。

然而，这一传统工作流是碎片化的，且严重依赖科学家的个人经验。随着基因组学、蛋白质组学、临床记录等多模态数据的爆炸式增长，人类科学家愈发难以凭一己之力完成高效、精准的跨领域推理。

认识到国内在原创新药领域的这一基础性挑战，由临港实验室、上海人工智能实验室、上海交通大学、复旦大学及其附属中山医院等多家机构联合组建的科研团队，致力于利用人工智能技术，提升药物发现关键环节的效率和精度，探索其优化与革新的可能性。

近期，该团队发布了一个被定义为“自进化虚拟疾病生物学家”（Self-Evolving Virtual Disease Biologist）的多智能体（Multi-agent）系统。它能够以规模化的方式，系统性地识别具有清晰机制的、原创性的治疗靶点，为加速药物开发提供了一个全新的范式。

这项被命名为“元生”（OriGene）的多智能体系统由五个专门的 AI 智能体组成：协调智能体（Coordinator Agent）负责分析和分解用户查询；规划智能体（Planning Agent）确定使用哪些专业工具；推理智能体（Reasoning Agent）综合多模态输出并识别关键关系；批评智能体（Critic Agent）对模型结论进行批判性分析；报告智能体（Reporting Agent）将复杂的研究发现转化为清晰的报告。

（来源：bioRxiv）

特别值得一提的是，OriGene 采用了独特的“思维模板”（thinking template）机制。该论文共同通讯作者、上海交通大学郑双佳助理教授郑郑双佳向 DeepTech 表示，目前的 AI 系统虽然在工具调用方面表现出色，但在复杂的逻辑推理上仍可能出现偏差。因此，团队从大量生物信息学研究论文中提取了专家的推理模式，形成结构化的思维模板来引导 AI 的推理过程。“这就像给 AI 配备了一位经验丰富的导师，确保它按照科学的方法论来分解问题和选择工具。”

OriGene 的另一个突破性创新是其双重自进化能力。在单个问题解决层面，系统通过迭代的任务分解、工具利用、反思和重新规划过程，不断优化答案质量。当系统处理复杂的生物学问题时，会像 DeepResearch 方法一样，通过增加计算资源和迭代次数来提升响应质量。实验表明，将计算成本增加九倍时，系统在基准测试上的准确率从 62.81% 提升到了 78.39%。

更重要的是，OriGene 还具备系统级的自进化能力。系统能够从自己生成的高质量解决方案中提取新的思维模板，不断扩充和优化其推理能力。“这创造了一个良性循环：高质量的输出成为模板提取的输入，生成具有增强推理模式的第二代模板。”郑双佳说，“这种多代模板演化使得 OriGene 能够在没有传统模型重新训练的情况下，持续提升其能力。”

为了客观评估 OriGene 的性能，研究团队构建了目前靶标发现领域最大的基准测试集 TRQA（Target Research Question-Answering），包含 1915 个专家级别的问答对，涵盖了广泛的疾病和靶标类型范围。在测试中，OriGene 的表现超越了人类专家、通用语言模型（如 GPT-4o 和 DeepSeek-V3），以及现有的专业 AI 智能体系统。

（来源：bioRxiv）

OriGene 的另一个突出特点是其庞大的工具生态系统。系统集成了超过 500 种专业工具和 18 个精选的生物医学数据库，形成了一个统一的分析框架。这些工具涵盖了疾病生物学、基础生物学、药理学和竞争格局分析四个关键领域。通过 MCP（Model Context Protocol）协议，系统能够灵活调用从 ClinVar（临床变异数据库）到 AlphaFold（蛋白质结构预测）等各种专业资源。

OriGene 的真正价值在实际应用中得到了验证。团队将 OriGene 应用于肝癌（HCC，Hepatocellular Carcinoma）和结直肠癌（CRC，Colorectal Cancer）的靶标发现，成功识别出了两个原创治疗靶标：GPR160 和 ARG2。

在肝癌研究中，OriGene 从 125 个初始候选靶标中，通过多轮迭代分析，最终锁定了 GPR160。系统分析显示，GPR160 在肝癌组织中显著高表达，且其表达水平与患者的无复发生存期（Recurrence-Free Survival）呈显著负相关。后续的实验验证完全证实了 OriGene 的预测：GPR160 抑制剂不仅能直接杀伤肝癌细胞，还能显著激活 T 细胞的抗肿瘤免疫反应。

“我们发现 GPR160 抑制剂在病人来源的类器官（Patient-Derived Organoids）中表现出了很好的抗肿瘤活性。”郑双佳介绍说，“在人源化小鼠模型中，GPR160 抑制剂显著抑制了肿瘤生长，同时促进了 CD4+ 和 CD8+ T 细胞向肿瘤微环境的浸润。”

在结直肠癌的研究中，OriGene 同样展现了出色的靶标发现能力。系统从 86 个候选靶标中识别出了 ARG2，并制定了完整的实验验证策略。实验结果表明，ARG2 抑制剂在 4 例转移性结直肠癌病人来源类器官中都显示出了显著的抗肿瘤活性。

（来源：bioRxiv）

这些发现的意义不仅在于找到了新的治疗靶点，更重要的是证明了 AI 系统能够自主完成从海量数据分析到实验方案设计的完整流程。

当然，作为一个开创性的系统，OriGene 仍然面临一些挑战。郑双佳表示：“我们的工具调用其实还不够好，由于工具数量庞大，很多冲突的结论让 AI 难以判断哪个更准确。”针对此，团队正在通过强化学习和自进化系统来解决这一问题。

另一个重要挑战是数据资源的扩展。“我们现在接入了一些开源工具，但在升级版本中，我们已经和多家商业数据/情报库公司建立了合作。”郑双佳透露，“通过我们平台，这些公司愿意将数据以 API 形式提供给我们，以更好地发现新的靶标。”

安全性也是团队高度重视的问题。“由于系统过于通用，如果有人想要往不良方向使用，比如提出与健康无关的有害建议，我们现在的防御措施还不够完善。”郑双佳表示，团队正在加强安全性过滤机制的开发。

团队计划在今年 7 月的世界人工智能大会上正式发布这一系统。“我们希望通过这个工作让领域内的研究者看到，中国在这个方向上也在积极探索，并且已经取得了不错的进展。”

日前，相关研究成果以《OriGene：一种自动进行治疗靶点发现的自我进化虚拟疾病生物学家》（OriGene: A Self-Evolving Virtual Disease Biologist Automating Therapeutic Target Discovery）为题，发布于预印本平台 bioRxiv。

上海交通大学、临港实验室联合培养研究生张仲岳和周卓敏，复旦大学智能复杂体系实验室本科生邱子杰，复旦大学附属中山医院博士生吴英成，西湖大学工学院博士后李舒雅和临港实验室青年研究员王鼎言为共同第一作者。

上海人工智能实验室青年科学家白磊，复旦大学附属中山医院高强教授，复旦大学、上海人工智能实验室研究员孙思琦，上海交通大学院助理教授、临港实验室双聘研究员郑双佳担任共同通讯作者。