多语种神经机器翻译关键技术研究与应用项目

发布时间: 2022-11-13

来源: 科技服务团

基本信息

合作方式：合作开发

成果类型：发明专利,软件著作权

行业领域：

电子信息技术,计算机及网络技术,软件

成果介绍

机器翻译技术具有重要的国家战略意义和研究价值。国务院2017年颁发的《新一代人工智能发展规划》将人工智能列入国家发展战略，与机器翻译相关的NLP技术是其中的八大共性关键技术之一；工信部新一代人工智能行动计划将机器翻译视为未来可取得突破的关键技术之一；美国商务部2018年将机器翻译等技术列为出口管制技术。从技术层面上看，近几年，机器翻译技术取得了飞速的发展，新一代机器翻译技术神经机器翻译取代统计机器翻译成为主流的机器翻译技术，建立在神经网络基础上并依赖深度学习强大的表示学习能力，神经机器翻译生成的译文质量得到了显著提升。技术的快速发展极大推动了机器翻译的大规模产业应用，然而，具体应用场景的复杂性、多样性，神经机器翻译强数据性与小语种资源稀缺性矛盾，给神经机器带来了巨大挑战。

成果亮点

1、支持国产化软硬件的机器翻译解码计算。现阶段神经机器翻译主要依赖 x86 架构的 CPU 搭配 NVIDIA 的 GPU 作为基础运算硬件，机器翻译作为人工智能领域上的一颗璀璨明珠，其在全国产环境下的运行意味着在这一领域我国的关键技术可以不再受到任何国家的技术封锁。本次论证测试的模型为英语到中文，翻译模型结构采用基于 Pytorch 的Transformer Big 框架。测试集 2000 句，平均句长为 25 词。 2、基于国产异构融合计算硬件的高性能机器翻译技术。现阶段的国产化硬件性能相比国际知名的厂商仍有不小差距。为了进一步利用有限的计算资源，提升机器翻译运行速度，异构融合计算方案的研发尤为重要。经过研究，提出了一种支持国产不同计算软硬件（华为鲲鹏 920、飞腾 S2500、百度昆仑 K100/K200 处理器等）的异构融合的高性能机器翻译技术框架，通过采用模型压缩、异构融合计算、计算精度优化、运算函数库优化等技术，实现了在国产化 ARM 架构 CPU+国产化 AI 加速卡上机器翻译的异构融合计算，在全国产化环境下适配完成了 Transformer 模型的全部算子。

团队介绍

该项目团队共10人，其中，项目负责人程国艮，毕业于中国地质大学计算机专业，专注于机器翻译、知识图谱、自然语言处理与可视化分析技术结合的产品与解决方案的开发与应用。具有丰富的项目团队管理经验，曾带领60人团队参与机器翻译研发工作，同时参与多个国家级项目的申报与管理，期间担任过项目经理、项目总监、技术总监、技术副总裁等工作，在该项目的主要贡献包括：1）提出并实现了一种基于胶囊网络的神经机器翻译系统；2）提出并实现了一种基于同类词与同义词的机器翻译数据增强方法；3）提出并实现了一种机器翻译领域自适应方法；4）提出并实现了一种面向神经机器翻译的高效断句方法；5）作为骨干成员，参与规划了国产自主化多语种神经机器翻译系统的设计和研发工作；6）应用和推广了该项目的研究成果。

成果资料

产业化落地方案

点击查看

科创中国

友情链接

国际技术贸易

海外专利信息资源系统

省级中心站