국가데이터국, 2028년까지 고품질 데이터 세트 구축 계획 발표
전문가 해설
국가데이터국은 최근 공고를 발표하여, '산업 고품질 데이터 세트 구축 행동 추진에 관한 실행 방안(의견 수렴 초안)'에 대해 사회에 공개적으로 의견을 수렴한다고 밝혔습니다. 이 방안은 2028년 말까지 주요 분야를 포괄하고 응용 검증을 거친 업계 고품질 데이터 세트를 구축하여 전형적인 응용 장면을 만들고, 혁신형 기업과 전문 인재를 육성하며, 관련 표준과 도구를 형성하는 것을 목표로 하고 있습니다. 방안은 또한 인공지능 사전 훈련, 강화 학습 등의 단계를 대상으로 다중 모달 고품질 데이터 세트 구축을 지속적으로 추진하고, 지식 데이터베이스, 지식 그래프 등 새로운 스마트 응용 형태의 데이터 세트 구축을 강화하며, 주요 장면의 물리적 상호작용 데이터 세트 구축을 가속화하고, 세계 모델 등 첨단 방향의 데이터 세트 구축을 적극적으로 배치할 것을 제안합니다. 또한, 방안은 혁신적인 비즈니스 모델을 장려하고, 기초 데이터 패키지 판매에서 API 호출, 모델화 솔루션 및 전체 스택 서비스로의 단계적 도약을 추진하며, 엔티티 거래 등 새로운 데이터 세트 거래 모델을 탐색하여 정량적이고 가격 책정이 가능한 데이터 세트 가치 체계를 구축합니다.
💡 '츠위안짜오이(詞元交易)'은 데이터를 매우 작은 단위인 단어나 토큰으로 나누어 거래하는 새로운 형태의 데이터 거래 모델로, 이를 통해 더 효율적이고 세분화된 데이터 활용이 가능해진다.
人民日报记者 王云杉
国家数据局近日发布公告,就《关于推进行业高质量数据集建设行动的实施方案(征求意见稿)》向社会公开征求意见。
行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,并能有效提升模型、智能体、智能终端等应用效能的行业数据的集合,包含行业通识和行业专识数据集。
方案提出,到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设标准和工具。
方案明确,面向人工智能预训练、强化学习等阶段,持续推进文本、图像、音频、视频等多模态高质量数据集建设。面向智能体等新型智能应用形态,加强知识库、知识图谱、本体等数据集建设。面向具身智能发展需求,加快重点场景物理交互、环境感知、运动控制等真机交互数据集建设。积极布局世界模型等前沿方向数据集建设。
在创新行业高质量数据集商业模式方面,方案提出,推动商业模式从基础数据包销售向应用程序接口(API)调用、模型化解决方案及全栈服务梯次跃升。探索词元交易等新型数据集交易模式,构建以词元为基础,可量化、可定价的数据集价值体系。
国家数据局近日发布公告,就《关于推进行业高质量数据集建设行动的实施方案(征求意见稿)》向社会公开征求意见。
行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,并能有效提升模型、智能体、智能终端等应用效能的行业数据的集合,包含行业通识和行业专识数据集。
方案提出,到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设标准和工具。
方案明确,面向人工智能预训练、强化学习等阶段,持续推进文本、图像、音频、视频等多模态高质量数据集建设。面向智能体等新型智能应用形态,加强知识库、知识图谱、本体等数据集建设。面向具身智能发展需求,加快重点场景物理交互、环境感知、运动控制等真机交互数据集建设。积极布局世界模型等前沿方向数据集建设。
在创新行业高质量数据集商业模式方面,方案提出,推动商业模式从基础数据包销售向应用程序接口(API)调用、模型化解决方案及全栈服务梯次跃升。探索词元交易等新型数据集交易模式,构建以词元为基础,可量化、可定价的数据集价值体系。