首页> 关注此文用户还关注:

科技术语的识别和抽取在科技文献相似度计算中的应用研究报告

产出机构: 中国科学技术信息研究所
提交机构: 中国科学技术信息研究所
产出日期: 2015-12-31   
发布日期: 2018-08-24   
作者: 曾文;徐红姣;

 

摘要: 科技术语对于科技文献的分析和知识组织的构建具有重要的意义,本报告介绍科技术语自动识别和抽取的基本方法,为了研究和分析自动抽取的科技术语在不同类型科技文献之间相似度计算中的效果,本报告以事实型的科技文献数据为数据源,以科技期刊文献和专利文献数据为例,分别采用向量空间模型方法和潜在语义分析模型方法进行科技文献相似度的计算,并依据其在两类科技文献中的相似度计算结果,进行实验分析和比较。实验结果证明:本报告提出的科技术语自动识别和抽取方法可以提高不同类型科技文献之间相似度计算的结果。
关键字: 科技术语;潜在语义分析模型;向量空间模型;相似度;自动识别

  目录
  1 引言............................................................................................................2
  2 研究现状.....................................................................................................2
  3基于科技文献术语特征和统计计算的科技术语识别与抽取方法......................4
  3.1科技文献术语长度分析...............................................................................4
  3.2科技文献术语的判定与抽取算法.................................................................5
  4基于科技术语的科技文献相似度计算比较......................................................6
  4.1 VSM模型和LSA模型研究...........................................................................6
  4.2 基于VSM和LSA模型的相似度计算..........................................................8
  4.3 实验与分析...............................................................................................9
  5 结论............................................................................................................13
  参考文献…………………………………………………………………………..15
  插图清单
  图1相似度计算的基本处理流程.......................................................................8
  图2中英文科技期刊文本数量对比...................................................................9
  图3 中英文专利文本数量对比..........................................................................9
  附表清单
  表1基于词的VSM文献相似度计算结果示例.....................................................10
  表2基于术语的VSM文献相似度计算结果示例...............................................11
  表3 基于词的LSA文献相似度计算结果示例....................................................11
  表4基于术语的LSA文献相似度计算结果示例..................................................12
  表5相似度计算结果比较1................................................................................12
  表6 相似度计算结果比较2.............................................................................12

相关领域
  • · 未找到