近日,教育部、国家语委、中央网信办共同印发了《关于加强数字中文建设 推进语言文字信息化发展的意见》,对加快推进以信息化促进语言文字事业高质量发展,以数字化赋能语言文字更好服务现代化建设等,作出了全面部署。今天的发布会也将对文件进行全面解读。
出席今天发布会的嘉宾是:教育部语言文字信息管理司刘培俊司长,教育部语言文字应用管理司王晖副司长,广东省教育厅朱建华副厅长,北京师范大学康震副校长以及北京大学王选计算机研究所汤帜所长。
首先,我们请刘培俊司长介绍推进语言文字信息化发展和数字中文建设有关情况。
谢谢主持人。长期以来,党中央始终高度重视语言文字工作。习近平总书记指出,“语言是人类交流思想的工具、传承文明的载体、增进理解的桥梁。中文是承载着中华民族数千年的文明智慧,是中国贡献给世界的重要公共文化产品。”当前,语言文字作为教育资源、科技资源、文化资源、经济资源、安全资源和战略资源,它的功能作用更加突出。语言文字服务经济社会发展,数据要素价值更加彰显,语言文字事业的基础性、全局性、社会性、全民性特点更加鲜明。
为落实《教育强国建设规划纲要(2024—2035年)》,近日教育部、国家语委、中央网信办共同印发《关于加强数字中文建设 推进语言文字信息化发展的意见》,部署应用关键新技术,构建资源数据新体系,实施赋能全局新行动,全力服务教育强国、科技强国和文化强国建设,为以中国式现代化全面推进强国建设、民族复兴伟业贡献力量。我主要介绍三方面情况。
大力度支持语言文字信息处理技术创新。清华大学、北京大学、哈尔滨工业大学等开展了语言文字信息技术的深度研发,促进中文信息互联互通。其中,北京大学王选计算机研究所建成了中华精品字库。大规模构建语言资源体系。建成了世界最大规模语言资源库和中国语言资源知识图谱,多模态集成120多种语言和方言资源。大领域布局大语言模型技术应用,聚焦关键领域的需求,试点建设了一批自主安全可控的大语言模型。其中,北京师范大学古汉语大语言模型等已上线。
二是语言文字智慧化学习广泛开展,有力服务教育改革创新。高水平开展普通话水平测试,全面实现从人工到智能的普通话测试方式转变,制发电子证书9000多万份。广东省建成全国首个普通话水平测试智慧考场。高标准建设语言学习资源。开通国家智慧教育平台语言服务栏目,建成国家通用语言文字学习平台,汇聚8000多项学习资源,打造中华经典资源库、中小学语文示范诵读库等。高起点规范数字空间语言文字,发布《信息技术产品国家通用语言文字使用管理规定》,规范信息技术产品研发,会同有关部门开展“清朗·规范网络语言文字使用”专项行动。
三是语言文化网络化资源加速共享,有力服务中华文化传承。多领域推动语言文化资源共建共享。建成国家语委媒体语言语料库、冬奥会多语言术语库、公共服务领域译写规范术语库、规范标准课程库等30多项,多渠道打造示范平台。上线国家语言资源服务平台、中国语言文字数字博物馆、中国语言资源博物馆数字展区等。指导各地各校开展云端学习等课程平台。多模式推进传承传播。数字赋能让收藏在博物馆的文物活起来,支持联合开展古文字数字化研究,开通甲骨文数据平台,传承中华优秀传统文化根脉。
四是语言文明智能化传播联通世界,有力服务国际交流互鉴。深层次推进中华思想文化术语传播。数字赋能让书写在古籍里的文字活起来,建成中华思想文化术语数据库,面向国际传播1200多条反映中华民族话语体系中最核心最本质的思想文化术语,并与40多个国家和地区开展多语种数字版权合作。深融合助力数字资源建设。已建成集成化、智能化、国际化的全球中文学习平台,用户超1600万人,覆盖190多个国家和地区,深度化合作建立联盟,中文学习联盟云服务平台提供3万门在线课程,与中外1600多家机构合作,推动实现中文人人、时时、处处可学可用、易学易用。
一是聚焦一个突出重点,以加强数字中文建设为重点,全面推进语言文字信息化发展。《意见》明确提出,加强数字中文建设的理念、政策、行动和项目,将数字中文建设作为服务数字中国建设的重要任务和全面推进语言文字信息化发展的突出重点,全方位释放语言文字在经济社会发展中的数据要素价值,着力推进中文数字化与数据中文化,着力推进创新应用与规范安全,着力推进新型中文服务体系构建与语言文字治理体系完善。在实践中,既要规范、有效、批量地将中文资源信息转化为智能数据,也要促进中文数据的规模生产、优质集成、规范治理和复用增效,实现以数字化手段构建新型中文服务体系,引领带动语言文字信息化全面发展。
二是明确两步发展阶段,有序实现2027和2035年语言文字信息化发展目标。第一步到2027年,是以数字中文建设为重点的强基示范阶段,形成语言文字信息化推进机制,推动语言文字信息化规范标准、前沿语言技术、优质语言资源、新型语言服务等基础支撑能力显著增强。第二步面向2035年,是全面推进语言文字信息化发展的深化赋能阶段,推动承载中华文化的中文在全球数字空间、网络空间以及生成式人工智能等关键场景中的使用占比和价值引领作用显著提高,实现我国语言文字信息化整体水平位居世界前列。
三是部署三项重大任务,统筹推动技术创新、体系保障和关键赋能落地见效。创新应用自然语言处理、大语言模型、多模态信息处理、知识图谱、语料加工等五项前沿技术,重点服务大语言模型等人工智能技术创新应用“制高点”,夯实国家关键语料基础设施“新基建”。系统建设语言文字规范标准、资源服务、人才培养、协同创新和安全治理五大保障体系,重点提升语言文字信息化的基础能力。统筹实施数字中文服务教育发展、助力科技创新、赋能文化传承、推动产业升级、促进社会进步等五大赋能行动,重点推进语言技术与关键领域需求深度融合应用。
第三,创新长效化机制协同行动,构建数字中文建设赋能全局新格局。
今年,是落实《教育强国建设规划纲要(2024—2035年)》的关键之年,语言文字信息化发展将展望十年、谋划五年、立足三年,把握赋能全局高度,加快试点先行进度,激发协同创新力度,在落实重点任务上下功夫、见实效。
一是以重大应用作为战略牵引,有效满足需求。坚持需求牵引,加快建设国家语言文字大数据中心、国家关键语料库和国家语言资源信息库。坚持深度融合,推进自然语言处理技术、大语言模型等创新应用,坚持资源开发,分类建设基础性、应用性、战略性、特色性等多类高质量语言资源。坚持数据应用,支持语言文字信息技术新产品、新职业、新业态发展。坚持数字赋能,推动数字中文发挥立德树人的基础作用、推进科技创新的支撑作用、传承中华文化的根脉作用、赋能产业升级的关键作用和服务社会需求的民生作用。
二是以示范项目支撑重大任务,有效以点带面。在技术创新应用上,发挥自然语言处理技术支撑人工智能发展的基础作用,主要包括:加快领域大语言模型应用试点,确保规范安全,示范应用;研制面向人工智能的语言资源建设、管理、应用标准特别是语料和数据质量评价标准等。在数据资源建设上,发挥语言文字服务国家语言能力建设的战略作用,主要包括实施国家关键语料库建设计划,建设大规模中文语料库等。在关键领域赋能上,发挥信息技术赋能国家语言服务体系构建的全局优势,主要包括研制大语言模型能力素养框架(师生版),推进甲骨文数字化共享,实施中华文化优秀课程多语种数字化传播计划等。
三是以机制创新增强工作动力,有效落实任务。健全政府主导、部门协同、社会参与、共建共享的信息化推进机制。鼓励一地一策、一校一品制定数字中文建设计划,支持创建试验区和示范点,营造稳中求进、务求实效、数字赋能的良好氛围。
谢谢大家。
谢谢刘司长。下面请王晖司长介绍数智赋能语言文字高质量发展有关情况。
谢谢主持人。各位记者朋友,大家下午好。教育部、国家语委深入贯彻党的二十大和二十届二中、三中全会精神,全国教育大会精神,落实教育强国建设规划纲要和三年行动计划工作部署,全面把握教育“三大属性”,聚焦教育数字化战略行动,持续提升语言文字信息化、数字化、智能化水平,推动新时代语言文字事业高质量发展,筑牢教育强国建设语言基石。今天主要和大家交流三方面工作,概括为“三个聚焦”。
谢谢王司长。下面我们请朱建华厅长介绍广东省推进语言文字信息化发展有关情况。
谢谢主持人。各位记者,大家下午好。广东是经济大省、人口大省也是教育大省,教育规模位居全国前列。近年来,在教育部、国家语委的指导下,广东省教育厅认真学习习近平总书记关于教育的重要论述和关于语言文字工作的重要指示批示精神,按照“五个坚持”的工作思路,深入推进语言文字信息化建设,大力推进教育数字化转型,服务和全面赋能广东教育强省建设。
我们坚持赋能教育改革发展,以国家中小学智慧教育平台为核心,建立国家、省、市、县、校五级平台资源服务体系,推动数字化教学资源互通共享。我们加大国家通用语言文字推广普及数字化赋能力度,支持广东省外语艺术职业学院研发普通话水平智能测试舱、声纹分析系统等,打造全国首个以智能化为核心的普通话水平测试智慧考场,首创“随到随考”测试模式,普通话测试效率大幅提升。
为贯彻落实《教育强国建设规划纲要(2024—2035年)》部署,充分发挥数字中文建设赋能作用,当前和今后一个时期,广东省将着力实施语言文字信息化五大赋能行动。一是赋能教育发展行动,重点聚焦数字化语言资源课程和智慧教学新范式,发挥人工智能技术优势,构建丰富多样的数字课程资源库,优化师生教育教学模式。二是赋能科技创新行动。重点依托高校,吸引顶尖科研人才,开展大语言模型等前沿技术科研攻关,加强优质语料基础设施建设投入,服务高水平科技自立自强。
谢谢朱厅长。下面请康震校长介绍北京师范大学创新应用大语言模型等语言文字信息技术情况。
谢谢主持人。各位记者朋友,大家下午好。《教育强国建设规划纲要(2024—2035年)》提出以后,建设学习型社会,以教育数字化开辟发展新赛道,塑造发展新优势。当前,世界范围内的人工智能技术创新态势和竞争格局加速形成,正在深刻地影响教育的深层次变革。北京师范大学认真学习贯彻习近平总书记关于教育的重要论述和关于语言文字工作的重要指示批示精神,积极探索大语言模型赋能教育教学的关键举措和有效做法,助力教育强国建设。下面,我主要从三个方面介绍一下我们学校在这方面做的工作,概括的讲就是“三个全”。
第一,全方位建设关键领域语料库。推动中国特色大语言模型建设离不开大规模高质量的中文语料数据库、数据集。北京师范大学长期致力于数字化赋能关键学科领域研究,建设了通用汉字全息数据库,《说文》学数字资源库、历代碑刻与手写文字属性资源库、甲骨文拓片资源库等专业数字资源库。研发了中华大字符集、甲骨文小篆字库与国际编码,创建了汉字全息资源应用系统、数字化《说文解字》研究与应用平台,历代碑刻与手写文字数字典藏系统等大型的数字化平台,形成了具有创新性、专业性、权威性特点的语言文字学研究新格局,有力助推了关键学科领域建设和创新发展,为教育强国建设作出了积极的贡献。
第二,全流程自主研发大语言模型。为积极应对以大语言模型为代表的人工智能技术对教育变革带来的新机遇、新挑战,北京师范大学依托文学院、国际中文教育学院、人工智能学院建设的系列大语言模型,取得突出成效。中国文字整理与规范研究中心秉持“师古而不复古、坚守而不保守”的学术理念,发挥古籍整理智能化关键技术优势,针对古汉语信息处理任务“低资源”“富知识”的特点,以解决领域知识学习需求为核心任务,使用1.8B(18亿)参数量,训练出理解力强、准确率高、应用场景丰富的“AI太炎”古汉语大语言模型。
该模型坚持自主可控和安全可信的技术路线,在确保语料来源安全、语料内容安全、语料标注安全、模型安全等基础上,能够高质量完成古典文献释读,支持字词释义、文白翻译、句读标点、用典分析等多种具有挑战性的文言文理解任务。该大语言模型处于同领域国际领先地位,受到学界、产业界的好评。截至目前,该模型已广泛应用于海内外的学术科研、基础教育、编辑出版等多个领域,辅助古籍整理、语言研究、语文教育、辞书编纂等应用场景任务。
第三,全融入打造智慧教育新生态。北京师范大学深入推进教育数字化战略,强化科技教育和人文教育协同。一是构建“五方协同、四维融合”的体系,以促进信息技术与教育教学的深度融合为核心,以应用驱动和机制建设为动力,推动制度建设、课程建设、教室建设、平台建设,着力打造数智化赋能教育教学新生态。二是探索数智化赋能教育教学新模式。我校“创新‘AI+’课堂教学智能评测”案例入选首批“人工智能+高等教育”应用场景典型案例,“5G+智能育人综合应用试点项目”获评全国典型项目排名第一。三是深化自主开发平台应用。今年新学期,北京师范大学基于本地化部署DeepSeek-R1模型,利用培养方案、教学手册、教学大纲等语料,为本硕博学生共计9958门课程自主研发了情景化的智能助教平台。
谢谢康校长。最后请汤帜所长介绍中华精品字库工程建设情况。
谢谢主持人,各位记者朋友,大家下午好!习近平总书记强调,“中国的汉文字非常了不起,中华民族的形成和发展离不开汉文字的维系”。汉字是世界上连续使用时间最长且唯一仍在使用的表意文字,是中华文化的重要载体,也是中华优秀传统文化的有机组成部分。北京大学始终坚持履行传承发展中华优秀传统文化的重要使命,以科技创新应用助力赓续中华文化根脉。
第二,满足重大用字需求,强化语言文字资源转化应用。党的十八大以来,北京大学作为国家语委中文文字字体设计与研究中心的依托单位,指导并支持中心发挥核心技术优势,大力推进研究应用成果服务国家需求和赋能文化传承弘扬。服务战略需求方面,设计开发国家重大基础性规范《通用规范汉字表》的配套字库,支撑文化教育事业发展;研制人口信息生僻字超大字库解决方案,在第二代居民身份证、护照上应用,协助解决银行、税务等社会应用系统的人名、地名缺字问题。赋能文化传承弘扬方面,联合中央美院为北京冬奥会、冬残奥会设计专用字体,将汉字艺术与体育运动中的力量、气势等审美特质融为一体,以汉字书写诠释对冬奥精神内涵的理解,向全世界展示中国的体育精神、文化魅力。
第三,打造中华精品字库,助力中华优秀文化传承发展。近年来,为传承弘扬中华优秀传统文化、推进书法经典的跨时空传承,北京大学王选计算机研究所承担中华优秀传统文化传承发展工程支持项目,在中国文联、国家语委指导下,启动“中华精品字库工程”,精选中国历代书法名家的代表作品,开发形成一系列计算机书法字库。截至目前,已发布包括甲骨文、王羲之行书、颜真卿楷书、柳公权楷书、欧阳询楷书、苏轼行书、米芾行书等在内的47款精品字体,通过数字化手段保护和开发中华优秀字体资源,传承书法艺术,服务信息化时代汉字应用的需求。
为了让书法经典更好融入大众生活,从2020年起,启动了“字美中华—中华精品字库工程公益应用计划”,将开发的47款精品字库,向公益组织、新闻出版单位、政府机构、学校和个人等免费授权,“工程”字体的审美价值与实用价值得到社会各界认可,在国家语言资源服务平台等平台的下载量达到300多万次,众多新闻出版单位、大中小学、企业广泛采用,推动了书法艺术的普及,让汉字之美在日常使用中得以传承,助力提升文化自信。
谢谢汤所长。嘉宾的介绍就到这里,下面我们进入提问环节,看看记者朋友们有什么问题。
刚才刘司长在解读《意见》的时候提到全面推进语言文字信息化,要以加强数字中文建设为重点。能否请刘司长对“加强数字中文建设”这方面的内容和考虑再做一些具体的介绍呢?谢谢。
感谢央视记者的提问。您关心的问题,事关语言文字信息化发展的总体布局和关键重点,也是我们研究政策、设计项目和落实好政策的关键和重点。去年以来,为科学谋划语言文字信息化发展和数字中文建设,我们开展了实地调研,包括部门会商以及专家论证,大家认为语言文字信息化的工作需要聚焦战略需求,加强科学统筹,特别是要统筹处理好全面推进和重点加强、服务人工智能制高点和建设优质语料新基建、语言数据赋能信息技术创新与信息技术赋能语言文字资源使用等若干重大关系。
关于全面推进语言文字信息化。要遵循语言文字事业的基础性、全局性、社会性和全民性特点,把握语言文字与信息技术所共有的泛在性特征,推进两者深度融合,全方位释放语言文字的数据要素价值,全环节发挥语言文字的资源功能作用,全领域推进语言文字服务经济社会发展,逐步形成推动语言文字信息化,特别是突出数字中文作为信息化建设重点的总体格局。
关于重点加强数字中文建设。当前数字中国建设的大背景和世界大语言格局,对承载中华文化的中文数字化提出新的要求。当前和今后一个时期,重点加强数字中文建设主要有以下考虑:一是中文使命任务重大。今后一个时期,中文服务数字中国建设,加大国家通用语言文字推广力度,深化中华优秀语言文化传承,增进语言文明国际交流互鉴等多项重大任务,更加需要中文数字化赋能。二是中文文化内涵丰富。中文承载着中华民族数千年的文明智慧,是中国贡献给世界的重要公共文化产品,更加需要中文数字化传播。三是中文使用范围广泛。中文是世界上使用人数最多的语言,是联合国六种工作语言之一,190多个国家和地区开展中文教学,85个国家将中文纳入国家的教育体系,更加需要中文数字化学习。四是中文数据价值突出。大规模、高质量的中文数据有利于推动中国特色大语言模型创新发展,更加需要中文数字化支撑。
《意见》明确提出重点加强数字中文建设,着力推进中文数字化与数据中文化、创新应用与规范安全、新型中文服务体系构建与语言文字治理体系的完善,进一步提升中文在全球数字空间以及人工智能等关键应用场景的使用占比和价值引领,进一步提升在全球语言治理框架中中文参与度和在世界文明交流互鉴中的中文贡献率,为教育强国、科技强国、文化强国建设发挥中文更大的作用。
谢谢。
我这个问题是提给汤所长的,在您刚刚的介绍中也提到了,上世纪中文信息处理技术解决了汉字进电脑、上网络的历史性问题,迎来从“铅与火”到“光与电”的革命。当前人工智能技术快速发展,加强数字中文建设在推动中文信息处理技术创新发展方面,您认为将会发生哪些重要的作用?谢谢。
谢谢这位记者的提问。上世纪80年代,王选院士的团队发明激光照排技术,并结合汉字的编码标准,突破了中文数字化的空间限制,让承载中华文化的中文在全球互联网空间获得新生。当前,大语言模型技术对大规模高质量语料提出前所未有的需求,赋予了数据中文化新的历史内涵和使命任务。不同的历史阶段,类似的机遇和挑战。中文信息处理技术的发展从以往解决汉字输入输出的基础性问题,进阶到当先释放语言文字数据要素价值的全方位突破。我们认为,加强数字中文建设将从三个维度重塑发展格局,推动中文信息处理技术发展进入新阶段。
第一个方面,要从重要资源转化为数据要素价值。语言文字是国家重要的教育资源、科技资源、文化资源、经济资源、安全资源、战略资源。新形势下,语言文字将从实现“静态符号”向“动态数字资产”,从“信息载体”向“生产要素”的转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等各种任务。
《教育强国建设规划纲要》提出,要建设“新型国家语料库”,《意见》也提出到2027年初步建成国家关键语料库。请问语料库在语言文字信息化工作中发挥什么样的作用,以及下一步我们有哪些推进安排?
感谢您的提问。加强新型国家语料库建设,是落实教育强国建设规划纲要、服务教育强国建设的重要任务,是建强国家关键语料基础设施的重要举措,是加强数字中文建设、推进语言文字信息化发展、推动语言文字高质量发展的基础支撑,也是经济社会信息化建设、数字化赋能和智能化发展的基础要素。
二是统筹 “夯实新基建”与“服务制高点”两手齐抓。以建设语料基础设施为新基建,服务大语言模型以及生成式人工智能等技术前沿创新应用的制高点。目前,教育部、国家语委已经支持布局了五个领域的自主安全可控大语言模型建设项目,下一步将根据需求稳步扩大建设范围,提升建设成效。 三是夯实“机制、标准、人才”三个基础。第一是逐步建立健全语料共建共享新机制,第二是研制语言资源、语言数据、基础语料以及大语言模型的技术和管理标准,第三是依托高校研究机构推进多学科交叉融合,为语言科技、语料建设以及人工智能创新应用培养高素质人才。 谢谢。
感谢中国教育报记者关注关心“新型国家语料库”建设。“新型国家语料库”建设应该说是在我们司参与研制《教育强国建设规划纲要》的过程当中,汇聚专家学者的意见建议,凝练语言文字支撑强国建设的战略支点过程当中谋划和提出的,并且写入了《教育强国建设规划纲要》。
对此,我们总的考虑是:立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。
近期,DeepSeek等大语言模型方兴未艾,面对新形势新要求,想请问高校如何发挥人才培养的主力军作用,在加强数字中文建设新背景下高质量建好中文专业?
谢谢这位新华社的记者。确实,最近DeepSeek模型引起了国内外的广泛关注和热议。正像怀进鹏部长在十四届全国人大三次会议“部长通道”上面所讲的,DeepSeek模型引发的关注和热议,让我们看到了教育改革和发展的重大机遇。北京师范大学目前正在按照《教育强国建设规划纲要(2024—2035年)》的部署,以完善人才培养与经济社会发展需要适配机制为导向,统筹推进学科布局、机构建设和人才培养,提升中文专业学生的人文素养、数字素养和职业能力,高质量建好中文专业。具体来讲,我们在三个方面作了一些工作。
三是着力推进人才培养机制创新。从去年开始,北师大积极实施“人工智能+高等教育”的教育教学改革专项“1228计划”,这个计划是什么内容呢?就是在3—5年的时间里,促进10个专业人才培养与人工智能的深度融合,打造20个人工智能赋能教育教学的重点团队,推动20本数字化的教材建设,建设80门深度融合人工智能的智慧课程。未来,北师大还将持续重视抓好新文科建设,优化人才自主培养体系,加大科教融汇力度,深化产学研用一体化合作,加快培养适应新技术、新产业、新业态、新模式的复合型人才。
谢谢,我的回答就是这样。
今天的发布会到此结束,再次感谢各位嘉宾、各位记者,我们下次再见。