上海市经济信息中心
上海市经济信息中心
首页 > 智库研究 > 创新经济
加快建设上海战略数据库,抢占AI制药产业制高点
时间:2026-02-25

创新发展研究部 易亚琦 刘婧敏

全球生物医药产业正经历以人工智能(AI)为核心的技术革命,AI制药通过机器学习算法重构药物研发全流程,成为破解“研发效率低、成本高、成功率低”行业痛点的关键引擎。然而,AI制药的发展高度依赖高质量生物医学数据的支撑,当前全球范围内蛋白质-小分子结合数据等核心资源稀缺,已成为制约技术落地的核心瓶颈。

一、AI制药时代,数据成为核心命题

AI技术正重构生物医药产业研发逻辑,大幅缩短创新药研发周期,降低研发成本,而这一变革的核心支撑是高质量生物医学数据。

发展趋势:数据驱动AI加速赋能制药全流程。靶点发现环节,AI通过整合基因组学、转录组学等多维度数据,可快速锁定潜在治疗靶点。药物设计环节,AI通过学习“靶点-化合物”作用数据模拟结合模式,为设计高活性分子提供依据。仿真模拟环节,AI模拟药物动力学(ADMET)过程,能在临床前排除高风险分子,提升研发成功率。

现实困境:高质量数据集稀缺制约AI制药发展。生命科学数据具有“获取成本高、积累周期长、标注难度大”等特点,适应AI模型训练的优质标注数据尤为稀缺。特别是蛋白质-小分子相互作用数据缺乏,OpenFold、AlphaFold3变体等AI制药模型面临预测精度低、无法识别新别构位点等瓶颈,严重阻碍AI药物研发进程。

外部形势:“数据脱钩”风险加剧倒逼数据库自主可控。我国生物医药领域数据库建设起步较晚,国内生物医药研究高度依赖境外数据库,对相关领域科学研究及后续产业发展带来较大影响。同时,高质量论文多在国外出版平台发表,面临关键数据库访问限制,基于受限数据的研究成果可能涉及知识产权风险,建立AI制药领域自主可控数据库迫在眉睫。

二、全球主要数据库建设模式及经验做法

数据是AI制药研发的基础资源,国际上历来关注生物医药专业数据库的建设与布局。尤其近年来AI技术在制药领域加速应用,高质量数据的战略价值愈发凸显,各国纷纷加大投入,通过多元模式强化数据库建设,形成各具特色的发展路径。

国际协作,公益共享工具赋能。以蛋白质结构数据库(PDB)为典型,国际协作模式通过“公益运营、强制提交、工具支撑”实现全球数据共享,其价值不仅在于数据汇聚,更在于配套工具与平台提升数据使用效率。PDB由美国于1971年发起,2024年数据量达23万条,支撑全球90%以上蛋白质结构研究。

国家主导,政府统筹资源定向突破。为将英国打造成AI驱动药物发现的全球领跑者,英国政府于2025年6月宣布启动OpenBind大科学计划,构建世界最大的蛋白质-小分子相互作用数据库,用于解决当前AI制药模型面临的数据不足问题。该项目计划依托英国钻石光源同步辐射晶体学线站,在5年内获得50万组蛋白-配体复合物晶体结构与亲和力数据,这些数据专门为AI药物设计算法“量身定制”。

企业联合,隐私计算私域共享。面对商业数据保密需求与AI训练数据缺口的矛盾,企业层面形成基于可信数据技术的私域共享模式,通过联盟、共享空间等形式,在保护隐私的前提下实现数据价值挖掘。如MELLODDY联盟由10家国际药企及技术公司联合发起,基于区块链与联邦学习搭建加密共享平台,各参与方将化合物活性数据留存本地,仅通过加密网络共享模型训练参数,实现数据“可用不可见”。

三、关于上海建设AI制药战略数据库的路径建议

上海作为国内生物医药产业龙头,在AI制药战略数据库建设方面具备扎实基础优势,在国际数据断供风险加剧与国内高质量数据稀缺的双重压力下,建设自主可控战略数据库成为必然选择。

一是强化顶层设计,构建国家级数据底座。对标英国OpenBind项目,构建自主蛋白质-小分子复合物结构数据库,填补AI训练核心数据缺口。升级蛋白质结构数据库核心能级并强化数据产出支撑,开发符合国内研发需求的中文数据接口与可视化工具。探索政府资金、项目资助、产业投资等多元资金保障方式,构建标准化、安全化、规范化的科学数据管理体系,提升生物科学数据的存储、管理、计算和服务能力。

二是研发数智化工具,释放数据核心价值。鼓励研究机构与数据库运营单位积极合作,开发结构可视化、数据标注等工具,搭建自主数据分发审校系统。构建高质量数据集与大模型,形成多个高质量关联数据集,全面支持功能蛋白质研发过程中所需的各种分析、预测和设计需求。构建“数据-算法”迭代飞轮,通过实验数据反馈进行模型精调,显著提升特定靶点的预测能力。引入基于大语言模型的AI智能体,实现自然语言交互,生成个性化计算工作流,简化操作流程。

三是创新共享机制,“以开促聚”实现良性循环。支持科研机构和龙头企业建设药物靶点、多维组学、结构组学等特色数据库和高质量数据集。鼓励特色数据库接入战略数据库,形成“总库-分库”联动体系,以蛋白质小分子相互作用数据库为总枢纽,搭建标准化接入平台,鼓励科研机构、龙头企业特色数据库作为分库汇入总库实现数据互通,并利用联邦学习、差分隐私等技术实现数据“可用不可见”。创新数据共享激励机制,支持高校与企业联合培养生命科学数据标注、隐私计算等专项人才,强化人才支撑。

中心概况 工作要闻 智库研究 主要成果 公示公告
主办:上海市经济信息中心
地址:中国.上海市华山路1076号
承办:上海中经互联网络有限公司
邮编:200050 电话:021-62589090