首页> 关注此文用户还关注:

主题词表自动化构建技术

产出机构: 中国科学技术信息研究所
提交机构: 中国科学技术信息研究所
产出日期: 2019-12-28   
发布日期: 2020-12-24   
作者:

 

摘要: 

主题词表是一种典型的知识组织系统,是对学科领域中专业知识的规范化、系统化的组织。由于传统方式下主题词表编制的周期长、成本高、人工密集,需要采用自动化的技术来解决这些问题。本报告从这个角度出发,结合当前大数据环境下对自动化编制技术的支撑,研究分析了主题词表编制过程中应如何自动化技术结合,突破传统的主题词表编制模式,将先进的自动化编制技术融入进来,推动主题词表乃至知识组织系统构建的进步。本报告首先设计了主题词表编制的技术流程框架,然后对其中的关键技术进行了较为详细切实的研究分析。

关键字: 主题词表;自动构建;知识组织

目  录

一、主题词表自动化构建的技术流程框架 6

二、素材资源采集中的关键技术 8

三、术语素材深度清洗的关键技术 15

四、基础词库构建的关键技术 18

五、术语词库构建的关键技术 24

六、语义关系建立的关键技术 28

七、主题词表编制平台中的关键技术 30

八、语义关系逻辑错误的智能校验与修正 33
插 图 清 单

图 1技术流程框架图 8

图 2 并行分布式采集框架 11

图 3 多来源素材评价 13

图 4 术语样本空间 16

图 5 素材清洗流程 17

图 6 基于条件随机域的素材清洗技术 20

图 7 基础词库构建流程 21

图 8 多层术语语义聚类 23

图 9 多维度术语质量计算 25

图 10 术语时序特征示例 28

图 11 领域术语特征示例 28

图 12 语义关系模式挖掘示例 30

图 13 语义关系挖掘流程 32

图 14 大数据主-从架构下的多任务编制 33