首页> 关注此文用户还关注:

语义指纹姓名消歧实验报告

产出机构: 中国科学技术信息研究所
提交机构: 中国科学技术信息研究所
产出日期: 2016-12-23   
发布日期: 2018-05-25   
作者:

 

摘要: 

  姓名消歧指的是消除多文档中的人名歧义性,把相同的人名按照现实世界的不同实体进行区分。本文通过对国内外姓名消歧的研究现状进行归纳和总结,分析了各方法在实际应用中的优缺点,针对信息大爆炸的数字化时代,许多方法耗时多、不支持增量消歧以及面临“多维度灾难”的问题,提出了基于语义指纹的姓名消歧方法。
  本实验方案选取有代表性的部分作者的文献数据,构建文献测试数据样本集,首先对合著者单特征、作者单位单特征和语义指纹单特征进行独立特征姓名消歧能力判断和参数确定实验,为改进综合特征姓名消歧效果具有很强的指导意义;根据独立特征消歧能力的强弱以及各个单特征的优势,设计综合特征姓名消歧策略并进行实验验证。
  选取准确率、召回率和F值对独立特征姓名消歧和综合特征姓名消歧实验结果进行评价。实验结果表明合著者单特征和机构单特征具有较高的准确率和较低的召回率,而相对而言语义指纹单特征具有较高的召回率和较低的准确率,而采用基于语义指纹的综合特征姓名消歧方法,实现了优势互补,弥补了各自方法的不足,获得了较高的准确率和召回率,结果表明该方案F值达到76%。

关键字: 姓名消歧;语义指纹;SimHash算法;人名歧义;自然语言处理

目  录
  1 引言1
  1.1 课题背景1
  1.2 研究意义1
  1.3 总体框架2
  2 基于语义指纹的综合特征姓名消歧方案3
  3 实验数据集的构建4
  3.1 数据集构建4
  3.2 文献全文PDF格式处理5
  3.3 机构信息规范化处理7
  3.4 文本指纹生成实验8
  4 文献著者姓名消歧实验10
  4.1 独立特征姓名消歧效果测试10
  4.1.1 属性特征选择10
  4.1.2 独立特征消歧实验结果分析11
  4.2 基于语义指纹的综合特征姓名消歧实验17
  4.2.1 数据集和实验环境17
  4.3 实验结果及分析17
  4.4 本章小结18
  5 总结19