首页> 关注此文用户还关注:

语义指纹姓名消歧方案设计报告

产出机构: 中国科学技术信息研究所
提交机构: 中国科学技术信息研究所
产出日期: 2016-12-23   
发布日期: 2018-04-18   
作者:

 

摘要: 

姓名消歧指的是消除多文档中的人名歧义性,把相同的人名按照现实世界的不同实体进行区分。本文通过对国内外姓名消歧的研究现状进行归纳和总结,分析了各方法在实际应用中的优缺点,针对信息大爆炸的数字化时代,许多方法耗时多、不支持增量消歧以及面临“多维度灾难”的问题,提出了基于语义指纹的姓名消歧方法。
  首先,设计了基于语义指纹的文献著者姓名消歧实施方案。该方案首先利用SimHash生成文本语义指纹,构建指纹库。将全文相似度计算转化为语义指纹的比较,整个过程不涉及原文本的两两比较,且语义指纹具有处理速度快、占用空间小,是一种有效的降维算法。不仅如此,对于新增的文献本文采用动态建立作者指纹库的方法,而传统的方法只关注了对库中已有的文献姓名消歧。第二,有效地融合作者的合著者特征、机构特征和全文的语义指纹特征设计了综合特征比较器,进而进行同一作者的文献识别。第三,根据综合特征的比较结果设置合理的阈值进行认领决策、作品指派,考虑到一篇论文可能被多名作者认领,并添加了争议仲裁。

关键字: 姓名消歧;语义指纹;SimHash算法;人名歧义;自然语言处理

 目  录
  1 引言1
  1.1 课题背景1
  1.2 研究意义2
  1.3 研究内容与方法3
  1.4 总体框架3
  2 语义指纹原理与技术基础4
  2.1 语义指纹介绍4
  2.1.1 语义指纹概念4
  2.1.2 语义指纹研究现状4
  2.1.3 语义指纹的应用6
  2.1.4 主要指纹算法6
  2.2 文本特征表示模型8
  2.2.1 布尔模型8
  2.2.2 向量空间模型8
  2.2.3 概率模型9
  2.3 评价指标9
  2.4 本章小结11
  3 基于语义指纹的综合特征姓名消歧方案设计12
  3.1 结构流程12
  3.2 语义指纹生成方案设计13
  3.3 指纹比较方案设计14
  3.4 认领决策方案设计15
  3.5 作品指派方案设计16
  4 结论18