主题词表自动化构建技术
主题词表是一种典型的知识组织系统,是对学科领域中专业知识的规范化、系统化的组织。由于传统方式下主题词表编制的周期长、成本高、人工密集,需要采用自动化的技术来解决这些问题。本报告从这个角度出发,结合当前大数据环境下对自动化编制技术的支撑,研究分析了主题词表编制过程中应如何自动化技术结合,突破传统的主题词表编制模式,将先进的自动化编制技术融入进来,推动主题词表乃至知识组织系统构建的进步。本报告首先设计了主题词表编制的技术流程框架,然后对其中的关键技术进行了较为详细切实的研究分析。
目 录
一、主题词表自动化构建的技术流程框架 6
二、素材资源采集中的关键技术 8
三、术语素材深度清洗的关键技术 15
四、基础词库构建的关键技术 18
五、术语词库构建的关键技术 24
六、语义关系建立的关键技术 28
七、主题词表编制平台中的关键技术 30
八、语义关系逻辑错误的智能校验与修正 33
插 图 清 单
图 1技术流程框架图 8
图 2 并行分布式采集框架 11
图 3 多来源素材评价 13
图 4 术语样本空间 16
图 5 素材清洗流程 17
图 6 基于条件随机域的素材清洗技术 20
图 7 基础词库构建流程 21
图 8 多层术语语义聚类 23
图 9 多维度术语质量计算 25
图 10 术语时序特征示例 28
图 11 领域术语特征示例 28
图 12 语义关系模式挖掘示例 30
图 13 语义关系挖掘流程 32
图 14 大数据主-从架构下的多任务编制 33