智源研究院揭秘具身智能数据治理新路径
未来将出现专业的具身数据服务机构,提供“场景定制采集+数据治理+模型训练支持”的一体化服务。
文|钱丽娜 ID | BMR2004 “在人工智能技术飞速发展的今天,数据作为核心生产要素,其治理水平直接决定着大模型的性能与产业落地的深度。”北京智源人工智能研究院副院长兼总工程师林咏华在2025世界人工智能大会暨人工智能全球治理高级别会议(简称WAIC 2025)期间,接受《商学院》杂志专访时表示。 作为国内人工智能领域的领军机构,智源研究院在数据治理领域深耕多年,构建了一套涵盖审查标准、管理规范、创新应用的完整体系。从开源数据的质量管控到具身智能的特殊数据治理,从多元数据使用模式到未来商业模式探索,智源的实践为行业提供了宝贵的参考样本,也深刻揭示了数据治理在智能时代的核心价值。 01 数据审查:以技术筑起质量与安全防线 开源数据因质量参差不齐、采集基准缺失等问题广受诟病,建立科学的数据审查标准成为行业亟待解决的难题。 智源研究院从隐私保护、质量过滤、安全管控三个维度,构建了全流程的数据审查体系,为高质量数据应用奠定了基础。 在隐私保护方面,智源对所有采集的数据实行“双重筛查”机制。对于合作方提供的数据集,首先区分其使用权限——哪些可用于模型训练但不可开源,哪些可部分开源,哪些完全禁止对外披露。例如,某企业提供的用户行为数据,经过脱敏处理后可用于模型训练,但原始数据因涉及个人隐私被严格限制在内部使用。这种分类处理既保障了数据的利用价值,又守住了隐私保护的红线。 数据质量过滤则依托技术手段实现标准化。2023年初,智源研究院承担国家级高质量语料库建设与开源任务时,便意识到人工审核存在标准不统一、效率低下的问题。为此,研究院训练出质量过滤模型,构建起完善的算法库,通过机器审核实现数据质量的统一把控。当遇到新的数据质量问题时,算法库会迅速迭代更新,将新规则纳入模型训练中。例如,在处理文本数据时,模型能自动识别并过滤掉重复内容、低信息密度文本以及涉黄、涉毒等违规信息,确保入库数据的纯净度。 安全管控贯穿数据审查的全流程。除了常见的内容安全筛查,智源还针对不同数据类型制定了专项审查标准。对于多模态数据中的图像、视频,增加了对敏感场景、标识信息的识别;对于工业场景采集的数据,重点排查是否涉及企业商业机密。这种全方位的审查机制,为数据的安全合规使用提供了坚实保障。 林咏华同时也表示:“实际上我们在使用数据时,很多时候我们发现汇聚数据容易,但使用数据却变成整个产业的问题。” 02 管理规范:创新数据使用模式破解产业难题 智源研究院在2024年联合产业机构推出三种数据使用模式,通过开源共享、共建共享、数算一体的多元模式,破解数据流通与保护的难题。具体来看: 开源数据模式聚焦科研与产业普惠。智源将可开放的数据打包发布,支持学术界和产业界免费下载使用。 共建共享模式以积分制激发数据流通活力。针对不愿开源但愿意在可信机构间交换数据的企业,智源设计了一套基于数据质量和数量的积分体系——企业贡献的数据经质量评估后转化为积分,积分可用于兑换其他企业的共享数据。这种模式既保护了数据所有权,又打破了“数据壁垒”。 数算一体模式则为版权要求高的数据提供安全使用方案,数据和算力放在一起。对于来自影视作品的高质量的视频和音频数据,智源构建了“数据与算力绑定”的安全域,特定团队可在安全域内使用数据训练模型,但数据本身不可带出,训练成果(模型)则可自主带走。这种模式在保护版权的同时,也实现了数据的高效利用。 三种模式的协同推进,形成了“分层分类、安全可控”的数据管理生态。这种生态既满足了不同类型数据的使用需求,又通过规范的流程设计,降低了数据泄露、滥用的风险,为数据要素的市场化配置提供了重要支撑。 03 具身智能:数据治理的新挑战与新突破 随着具身智能的兴起,数据治理进入更为复杂的新阶段。与传统大模型相比,具身智能的数据具有多模态、高维度、场景敏感等特点,智源研究院在继承传统治理经验的基础上,创新出一套适配具身智能的数据治理方法,为该领域的技术突破扫清了障碍。 林咏华指出,具身智能的数据多样性远超普通多模态模型。以机械臂数据为例,除了摄像头采集的视频信息,还涉及机械臂的运动轨迹、多自由度(XYZ轴)数据、加速度数据等传感器信息。除了上述的单机数据采集,工程师还要跨机器人本体采集数据,增加了设备数据的采集,同时为了在真实场景中采集数据,公司还在实验室里搭建仿真场景。可以说,具身智能的数据维度增加,格式各异,传统的分类方法难以应对。 场景敏感性是具身智能数据治理的另一大挑战。在工业场景采集数据时,部分企业因担心流水线作业流程泄露,对数据采集持保守态度。智源通过“物理场景分级”策略解决这一问题。 智源为此建立了“行业+场景+操作复杂度” 的三维分类体系:按行业划分为工业、家庭服务、医疗等领域;按场景细分为厨房操作、流水线作业等具体场景;按操作复杂度分为原子操作(如几秒之内的一个抓取动作)、长程操作(如叠衣服,涉及多个步骤)、复杂组合操作(如整理房间的指令中涉及到叠衣服、整理被子、扫地等不同的操作)。 数据采集效率是制约具身智能发展的关键瓶颈。具身数据的采集依赖硬件设备,不同构型的机械臂(单臂、双臂、轮式等)、不同类型的末端执行器(夹爪、灵巧手等),都需要针对性的采集方案。此外,遥操过程中的视角差异、设备校准误差,进一步降低了采集效率。目前有一些解决方案,包括开发VR映射校准系统等。 具身智能的数据治理创新,不仅解决了该领域的技术痛点,更拓展了数据治理的边界。这种创新证明,数据治理必须与具体技术场景深度融合,才能真正发挥支撑作用。 04 仿真数据:平衡真实与效率的治理探索 仿真合成数据的价值与局限,是行业争论的焦点。智源研究院在实践中形成了以“真机数据为核心、仿真数据为补充”的治理思路,通过二者的有机融合,既保证了数据的真实性,又提升了数据的覆盖范围,为模型训练提供了更丰富的“养料”。 “真机采集很难构造所有的场景,所以这就是为什么大家觉得仿真数据很重要。但是仿真数据也有仿真不了的场景,例如真实物体的重量、摩擦力、质感等物理特性。”林咏华说。 仿真数据的价值在于“场景泛化”。通过数据增强技术,智源将单一真机数据扩展出多种场景变体:改变光线强度、替换背景颜色、调整物体摆放角度等。这种处理使得一条原始数据可生成多条有效训练数据,大幅提升了数据的利用效率。 真机数据与仿真数据的融合是治理的关键。智源探索出“物理属性保真+场景灵活替换”的融合策略:保留真机数据中的物理参数(如力量、速度),通过仿真技术替换场景背景、物体外观等非关键信息。这种方法既保证了数据的物理真实性,又拓展了场景覆盖范围。 数据治理的终极目标是释放数据价值。智源研究院在夯实治理基础的同时,积极探索具身数据服务的商业模式,推动公共平台建设,为数据要素的规模化应用描绘了清晰的路径。 来源|商学院8月刊