首页> 关注此文用户还关注:

基于ElasticSearch的机器翻译研究

产出机构: 中国科学技术信息研究所
提交机构: 中国科学技术信息研究所
产出日期: 2020-06-28   
发布日期: 2021-07-22   
作者:

 

摘要: 

为了更好地提升“科信智译”的翻译服务水平,我们对科信智译进行了升级改造。翻译引擎采用了谷歌Transformer神经网络机器翻译架构。在数据预处理方面,为了提高训练语料的质量,我们采用通用预处理方式和特定预处理两种方式来处理训练语料和开发集,并探索了多种语料过滤方法。同时,利用Elasticsearch相似语料过滤方法来选择和测试数据相近的开发集。在最终的译文输出过程中,我们采用了模型平均的策略,并通过后处理合并不同结果给出最后的译文。在实验中,我们对比了系统在两种翻译方向上不同设置下的表现,并对实验结果进行了分析。基于上述翻译引擎,我们设计了基于微服务的分布式架构,使得“科信智译”系统的运行效率、处理能力和稳定性都有了显著的提高。进一步使翻译交互和操作界面更加友好、方便。  

关键字: 机器翻译;ElasticSearch;升级和改造

目 录

1 引言

2. 相关工作

3基于EalsticSearch的机器翻译系统

3.1 模型结构

3.2 语料预处理

3.2 ElasticSearch相似语料过滤

3.3译码策略

3.3.1 模型平均

3.3.2 候选译文合并

3.4 实验

3.4.1 参数设置

3.4.2 使用数据

3.4.3 实验结果

4 翻译系统部署

4.1 组织结构

4.2功能布局

4.3 技术架构

4.4系统功能

4.4.1 系统首页(改进完善)

4.4.2 关于我们(新增页面)

4.4.3 会员登录(改进完善)

4.4.4 联系我们(新增页面)

4.4.5 文本翻译(改进完善)

4.4.6 词典翻译(改进完善)

4.4.7 文档翻译(改进完善)

4.4.8 排版翻译(新增功能)

4.4.9 翻译设置(新增功能)

4.4.10 翻译统计(新增功能)

4.4.11 用户管理(新增功能)

4.4.12系统设置(新增功能)

4.4.13 个人中心(改进完善)

4.5性能测试

4.5.1测试内容

4.5.2测试结果分析

5总结