首页> 关注此文用户还关注:

神经机器翻译未登录词解析科技报告

产出机构: 中国科学技术信息研究所
提交机构: 中国科学技术信息研究所
产出日期: 2018-12-25   
发布日期: 2020-12-03   
作者:

 

摘要: 

科技文献(Scientific and Technical Document)是记载科学技术等知识的载体。科学技术的快速发展促生了很多科技文献,其中不乏大量的外文科技文献。科研人员从其他语言的科技文献中获取信息较为困难,跨语言成为交流的主要障碍。多数科技文献仍然需要通过人工翻译才能为更多的科技工作者使用,这种方式效率低、成本高。随着计算机的普及以及相关技术的快速发展,利用计算机进行语言间转换的方法——机器翻译,成为了突破口, 机器翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。机器翻译是人工智能的终极目标之一,目前神经机器翻译(Neural Machine Translation,NMT)占据了机器翻译的主流地位。神经机器翻译中未登录词问题的研究主要在字符级别。而统计机器翻译(Statistical Machine Translation,SMT)引擎无需受到词表的限制,在翻译未登录词时比神经机器翻译具有更大的优势。本研究利用统计机器翻译中经常使用的词对齐生成双语词典,将SMT引擎对于未登录词的处理结果与NMT的未登录词翻译结果相融合,总结科技词汇构词规律,利用科技词汇构词特征,结合点互信息,在保留词汇义素完整的同时,对词汇表进行优化,成功减少了未登录词比例,以此达到提升神经机器翻译效果的目的。

关键字: 神经机器翻译;科技文献;未登录词

目  录

1 引言 6

1.1 研究背景和意义 6

1.2 相关研究进展 6

1.3 研究思路和总体方案 16

2 神经机器翻译未登录词研究 16

2.1 基于上下文信息的神经机器翻译未登录词分析 17

2.2 汉语词汇表对神经机器翻译的影响分析 20

2.3 基于科技文献词汇构词的词汇表优化 22

2.4 实验结果与分析 25

2.5 应用部署 27

3 结论 27