三部门推进语言文字信息化发展 教育部:已布局新型国家语料库建设

文章出处:米乐体育app客户端下载 人气:22 发表时间:2025-04-01 22:55:54

  3月31日,教育部举行发布会,介绍深入贯彻落实《教育强国建设规划纲要(2024—2035年)》,推进语言文字信息化发展情况。

  教育部语言文字信息管理司司长刘培俊表示,为抢抓大语言模型迭代升级新机遇、助力“人工智能+”新行动、回应经济社会持续健康发展新需求,日前教育部、国家语委、中央网信办印发了《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称“《意见》”),推进语言文字和信息技术深层次地融合、系统部署语言文字信息化发展。

  《意见》明白准确地提出,加强数字中文建设的理念、政策、行动和项目,将数字中文建设作为服务数字中国建设的重要任务和全方面推进语言文字信息化发展的突出重点,全方位释放语言文字在经济社会持续健康发展中的数据要素价值。

  “在实践中,既要规范、有效、批量地将中文资源信息转化为智能数据,也要促进中文数据的规模生产、优质集成、规范治理和复用增效,实现以数字化手段构建新型中文服务体系,引领带动语言文字信息化全面发展。”刘培俊表示。

  据了解,《意见》明白准确地提出“两步走”发展目标。其中第一步是到2027年,这是以数字中文建设为重点的强基示范阶段,形成语言文字信息化推进机制,推动语言文字信息化规范标准,前沿语言技术、优质语言资源、新型语言服务等基础支撑能力显著增强。

  第二步是面向2035年,这是全方面推进语言文字信息化发展的深化赋能阶段,推动承载中华文化的中文在全球数字空间、互联网空间以及生成式人工智能等关键场景中的使用占比和价值引领作用明显提高,实现我国语言文字信息化整体水平位居世界前列。

  刘培俊表示,《意见》部署了三项重大任务,统筹推动技术创新、体系保障和关键赋能落地见效。

  一是创新应用自然语言处理、大语言模型、多模态信息处理、知识图谱、语料加工五项前沿技术,重点服务大语言模型等人工智能技术创新应用“制高点”,夯实国家关键语料基础设施“新基建”;二是系统建设语言文字规范标准、资源服务、人才教育培训、协同创新和安全治理五大保障体系,重点提升语言文字信息化的基础能力;三是统筹实施数字中文服务教育发展、助力科学技术创新、赋能文化传承、推动产业升级、促进社会进步五大赋能行动,重点推进语言技术与关键领域需求深层次地融合应用。

  《意见》还着眼于创新长效化机制协同行动,构建数字中文建设赋能全局新格局。

  刘培俊表示,快速推进语言文字信息化发展,将以重大应用作为战略牵引,有效满足需求。其中,将加快建设国家语言文字大数据中心、国家关键语料库和国家语言资源信息库;推进自然语言处理、大语言模型等技术创新应用;分类建设基础性、应用性、战略性、特色性语言资源;支持语言文字信息技术新产品、新职业和新业态发展等。

  《中国经营报》记者在发布会现场了解到,教育部已启动布局新型国家语料库建设的工作。

  教育部语言文字应用管理司副司长王晖表示,当前以深度求索(DeepSeek)等为代表的人工智能技术创新不断取得突破性的进展,在此大背景下,国家将“新型国家语料库”建设写入《教育强国建设规划纲要(2024—2035年)》,凸显了其重要性、必要性和紧要性。

  “现在在一些应用领域,主要是在语言的教育教学和研究领域,有多个语料库。但是很多语料库还处于单一文本模式和领域应用阶段,在建设的理念、技术和方法、规模,以及数据多样性、时效性,尤其是和AI相结合的大规模应用方面还存在不足,难以满足多元化、动态化,尤其是智能化的语言数据需求。”王晖说。

  也正因此,“新型国家语料库”建设,将突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细致划分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。

  王晖介绍,新型国家语料库的建设,最重要的包含两方面:一是加强制度的供给,研制语料库建设规范,二是开发建设“中华文脉新型语料库”“中华大阅读体系语料库”。

  据了解,在关键学科、重点行业、战略区域、民生期待和社会急需领域,将分批建设规范、安全、优质的国家关键语料库。目前,教育部、国家语委已经支持建设了30余项关键领域的语料库。

  标准化是信息化的基础和前提。记者从《意见》中了解到,下一步我国还将统筹推进语言文字基础性标准和信息化标准一体建设,以语言文字信息处理标准建设为基础,支持面向信息技术及AI领域的语言资源建设、管理、应用、共享标准研究,重点推进语料库、数据标注、数据评价等规范标准的制修订。推进大语言模型等基础术语规范化。

  为了让数字中文助力科学技术创新行动,我国还将坚持试点先行,支持面向重点行业、战略区域和关键学科等的垂直领域大语言模型建设与应用。强化语言文字信息化研究成果转化,鼓励战略急需、产业紧缺、民生期盼的数字化语言服务示范应用。加快布局支持一批新型语言文字交叉领域科研机构,重点建设多语言智能化科学技术创新中心和实验室。支持数字中文建设、生成式人工智能技术等前沿领域的学术研讨和竞赛活动。