目录
1 引言............................................................................................................2
2 研究现状.....................................................................................................2
3基于科技文献术语特征和统计计算的科技术语识别与抽取方法......................4
3.1科技文献术语长度分析...............................................................................4
3.2科技文献术语的判定与抽取算法.................................................................5
4基于科技术语的科技文献相似度计算比较......................................................6
4.1 VSM模型和LSA模型研究...........................................................................6
4.2 基于VSM和LSA模型的相似度计算..........................................................8
4.3 实验与分析...............................................................................................9
5 结论............................................................................................................13
参考文献…………………………………………………………………………..15
插图清单
图1相似度计算的基本处理流程.......................................................................8
图2中英文科技期刊文本数量对比...................................................................9
图3 中英文专利文本数量对比..........................................................................9
附表清单
表1基于词的VSM文献相似度计算结果示例.....................................................10
表2基于术语的VSM文献相似度计算结果示例...............................................11
表3 基于词的LSA文献相似度计算结果示例....................................................11
表4基于术语的LSA文献相似度计算结果示例..................................................12
表5相似度计算结果比较1................................................................................12
表6 相似度计算结果比较2.............................................................................12