
作 者:产业发展研究部 敬雅斌
数据标注业是形成高质量数据集和AI发展重要“供能”基础。今年DeepSeek“技术奇袭”也同时带来关于数据利用效率的革命,成为数据标注业迈入转型升级新阶段的“催化剂”,高质量场景化数据“深度挖掘”成为AI竞争新焦点。
数据标注业迈入新发展阶段
“巨头引领、专业服务商崛起”,竞争格局尚未完全成型。美国标注业规模占全球40%,据统计,全球TOP30标注服务商中美国占18家,包括最大数据标注独角兽ScaleAI。我国等新兴市场成为重要潜力市场,据不完全统计,至2024年底,国内数据标注企业超4000家。
政策推动、需求提升、生态调整多重作用下,行业迈入新阶段。各级数据局大力发展数据市场,国家层面部署标注基地试点,筹划在中国人工智能产业发展联盟(AIIA)下成立数据标注分委会。大模型发展加速带动算法开源及垂域模型部署,场景化数据深度挖掘成为AI竞争新焦点和标注业新契机。行业生态从“小而散”转向“大而精”,马太效应加剧,据机构预测,2025年行业TOP5企业或将占据高端标注市场七成份额。
新阶段凸显知识密集、需求升级、技术赋能、服务延伸等转型升级特点。专业化标注需求凸显,涉及应用向计算机视觉、4D点云、意图情绪理解等技术要求更高的领域进阶,对具备AI、医疗、金融、工程、法律等专业知识的复合型人才依赖度更高。服务多元化、综合化,标注业务从单一标注服务向提供综合方案、出售高复用性的数据集等多类型延伸,并将与算法、模型等跨环节功能深度耦合。如根据模型训练实时调整标注策略的“标注即训练”模式、依托交叉验证和溯源标注的“数据消毒”服务等。
国内外相关经验和实践方向
国际经验:强化政策促进,带动市场需求,如美国制定“通过数据扩大机会和发现”战略,强化对高质量数据集的要求,带动数据标注市场需求。重视合规性标准化,提升对接国际市场能力,如欧盟实施《人工智能法案》,要求披露生成式AI训练数据的版权信息,规范标注流程。引育优质企业,塑造“头部”引领力,如法国设立数字创新基金,对标注领域潜力创新项目给予资助。加快科技创新,开辟和抢占新赛道,如英国孵化出Diffblue等一批科技公司,专注研发语义技术和知识图谱标注。
国内实践:加快“头部”集聚,如北京培育了一批行业“龙头”,全国2024数据标注公司TOP20榜单中,北京企业占60%。强化规划和标准引领,如合肥发布全国首个数据标注产业规划;湖南成立省数据标注标委会,系统建设标注标准体系。建设重点载体,如长沙建设智能标注公共服务平台,支撑“1个综合标注基地+N个行业标注基地”布局。聚焦特色垂类场景,如海口揭牌航天大数据标注基地,发展国际化“来数加工”,凸显AI数据国际化和遥感测绘数据标注特色。加快人才引育,如合肥成立数据资源产教融合共同体,将培育人工智能训练师纳入数据领域综合改革重点推进。
本市数据标注业高质量发展建议
上海数据标注业形成了一定基础,已培育澳鹏(上海)、商汤“明眸”等一批行业知名企业或专业平台,但“头部”集聚还不够,竞争力还不凸显,重点垂类场景优势还可进一步发挥,赋能产业体系升级的作用空间还很大。建议以集群做大做强、领先技术首发、标志性项目落地和先进场景先行先试,加快行业高质量发展,融入“人工智能+”“模塑申城”等系统工程,更好助力产业升级和城市数字化能级提升。
一是加快引育行业“龙头”。优化招引服务模式,分类引育行业高能级主体。从研发成本、资本支持、一体化政策服务等方面加强配套支持。创新完善数据知识产权登记、标注数据和相关研发成果产权上链、交易、融资等数据市场制度环境。
二是发挥特色功能区辐射带动作用。结合重点区域功能特色化多元布局,联动形成涵盖技术/标准研发、场景落地、跨境服务等全景式产业生态。
三是围绕高端和专业场景凸显创新策源。支持创新功能平台建设,健全创新风险管理机制,促进行业在重点标准、关键技术、特色“长尾场景”标注高地打造上突破引领。
四是帮助拓展市场空间。加强数据与场景开放创新,支持在服务业深化开放领域、数字化转型升级等重点场景拓展标注市场,搭建平台助企国际化发展。
五是加强高水平人才支撑。支持企业设置标注首席科学家岗位,鼓励院校课程优化,培养跨领域跨专业融合型人才。开展实践项目,建立企业实训和院校培训“双基地”模式。