首页> 关注此文用户还关注:

机器翻译资源建设与翻译引擎优化方法研究报告

产出机构: 中国科学技术信息研究所
提交机构: 中国科学技术信息研究所
产出日期: 2016-12-29   
发布日期: 2017-12-12   
作者:

 

摘要: 

本项重点工作在前期日汉机器翻译研究的基础上,开展了如下研究工作:1)双语语料建设:统计机器翻译亟需高质量的平行语料。本研究对双语语料抽取方法进行分类对比并调研了主要的双语网站及相关资源。2)日汉科技术语翻译方法:科技术语翻译要求高度的准确性和专业性。本项研究通过自动获取日语术语的二维领域知识,包括语义范畴标签和应用场景标签,可以对日语术语进行领域归类,应用到统计机器翻译中,可以自动标注日语术语(或句子)的二维领域知识,生成测试集和开发集的领域标签集合,进而筛选训练数据。3)机器翻译引擎研发:基于深度学习的机器翻译是近两年出现的新一代机器翻译理论方法,本研究对端到端神经机器翻译进行介绍,并对哈佛大学最新开源的OpenNMT系统进行测试,与现有的统计机器翻译系统做对比、总结和评价。

关键字: 双语语料抽取;语义范畴;应用场景;神经机器翻译;系统测试

  目  录
  1 引言2
  2. 统计机器翻译双语语料抽取方法研究3
  2.1 从网络或平行语料抽取双语语料的技术3
  2.2 从可比语料中抽取双语语料的技术11
  2.3 语料清洗技术13
  2.4 多语网站和多语资源的介绍13
  3. 基于二维词汇化领域知识的日汉科技术语翻译方法研究15
  3.1 相关工作16
  3.2 基于领域知识的统计机器翻译训练数据选择18
  3.3 实验23
  4. 神经网络机器翻译探究25
  4.1 神经机器翻译概述25
  4.2 NMT系统OpenNMT测试27
  5. 结论28
  5.1 双语语料建设28
  5.2 日汉术语翻译29
  5.3 神经网络机器翻译29