首页> 关注此文用户还关注:

科技文献语义关联网络及其应用探析

产出机构: 中国科学技术信息研究所
提交机构: 中国科学技术信息研究所
产出日期: 2020-01-27   
发布日期: 2020-06-18   
作者: 张昱;张均胜;姚长青;

 

摘要: 

科技文献之间的语义关联直接影响着科技文献检索与推荐等科技信息服务的质量。如何快速准确地建立科 技文献资源之间的关联网络以提高科技文献信息服务质量是目前数字图书馆领域的重要研究内容和方向。首先阐述科 技文献语义关联网络内涵,科技文献语义关联网络包括科研实体、研究内容及其之间的语义关联关系;然后提出语义关联网络构建方法,基于元数据和文本内容分析构建科技文献语义关联网络,并利用关系推理与预测方法以适应大规 模自动构建的需求;最后对语义关联网络的应用进行探析,指出科技文献语义关联网络构建是一种语义化组织工作, 为科技文献检索、推荐及情报分析提供支持。

关键字: 科技文献;语义关联;语义关联网络;信息组织;信息分析;元数据;文本内容分析

科技文献之间的语义关联直接影响着科技文献检索与推荐等科技信息服务的质量。现阶段的数字化科技文献资源已经积累了大量的元数据及数字资源,但科技文献之间的关联应用还处于初级阶段,主要的应用包括科技文献语义出版、检索服务与信息发现等。如何快速准确地建立科技文献资源之间的关联网络以提高科技文献信息服务质量是目前数字图书馆领域的重要研究内容和方向。建立科技文献之间的关联形成科技文献知识关联网络,是从海量科技文献资源中挖掘知识的需要,也是改善科技文献信息服务的需要。

科技文献语义化在一定程度上实现了数字文献资源的有效组织并为资源利用效率优化奠定基础。数字文献资源语义化通过显性地、以机器可读的表达方式描述文献资源的属性特征和关联关系,建立基于规范的组织模型,对文献实体之间和属性之间的关系进行序化,并提供基于语义关系的、统一的存取方式。数字文献资源的语义化涉及内容语义化和组织语义化两个层面。内容语义化通过自然语言处理技术实现对文献资源内容的语义标注,达到文献内容的计算机理解与掌握,即描述内容中的概念意义及不同概念间的关联;组织语义化则通过不同形式标签的使用实现文献资源组织形式的语义化,揭示出文献组织中概念间的结构化和网络化关联。

科技文献语义关联网络构建是科技文献语义化工作的重要组成部分。科技文献语义关联网络描述科技文献及相关实体(如研究者、研究机构、研究项目、研究领域、会议/期刊)和研究内容(如研究主题、关键词等)之间的语义关联关系。合著和引用是科技文献之间两种最重要的关联。合著分析是反映研究者关系的重要方法,共词分析法是通过分析文献集合中概念或专业术语的共现关系来确定文献集合主题之间的关系。通过词与词之间的共现与关联关系反映概念之间的关系,从而可以解释学科领域研究内容的内在相关性和微观结构,结合时间线的网络分析还可以展示科技发展动态和趋势。将科技文献的多要素组合分析是新趋势,单一或者少量几种要素的关联分析已经难以满足复杂多样的科技信息分析与服务需求。

建立科技文献语义关联网络的关键技术包括:语义关联的建立、发现和自动推理。科技文献之间的语义关联建立离不开人工的管理、分类和校对,海量的科技文献迫切需要利用计算机技术和自动化技术等自动或者半自动地发现并建立语义关联。

科技文献关联网络构建过程中综合考虑了科技文献的元数据和文献内容。利用科技文献的元数据,建立科技文献相关实体如研究者、研究机构、论文、会议/期刊、研究领域及出版商等之间的关联关系。针对科技文献内容进行向量化表示,计算科技文献文本之间的相似度,利用相似度计算结果进行科技文献的分类和聚类,进而建立科技文献之间的类属关联。

建成的科技文献语义关联网络包括科技文献及相关实体,利用关联关系推理规则进行关联推理与计算可以得到更多关联关系;根据关联关系的统计关系可以预测可能的关联关系。基于科技文献语义关联网络可以进行网络规律研究与知识发现,可以利用复杂网络分析方法,对网络中的节点度数、关联路径等进行统计分析和模式发现。

科技文献资源之间关联自动建立与关系的自动推理是知识组织自动化的核心技术。基于科研事件语义链网络中的已有的语义链,根据推理规则获得原有网络中潜在的或未知的语义链。进行关系推理的基础是建立关联关系之间的推理规则。科研事件网络的推理规则需要根据实际数据集合具体情况具体分析,通用的推理规则的基本形式一定程度上能够满足科研事件网络构建的需求。除此之外,还需要根据科技文献资源本身的特征进行分析,更好地完善推理规则。在很多情况下,科技文献之间的关联并非十分明确,而且关联程度大小认定结果也会因人而异,为此可以引入关联的概率值描述关联关系的可能性。除了逻辑推理规则,还可以采用统计学方法发现关联网络中的频繁模式。根据科技文献网络的自相似性,可以预测网络中可能的关联。

科技文献关联网络有助于发现科研发展脉络。通过分析科技文献的分布能够捕捉当前的研究热点以及该领域的当前研究前沿。不同领域的研究成果可以相互应用和促进,加快跨领域的研究。通过发表时间,可以了解科技文献关联网络的增长规律,借助于可视化技术可以快速了解到当前的研究前沿。通过科技文献之间的关联如引用关系可以对文献的权威性进行评价。根据科技文献之间的链接疏密度,可以了解研究问题的冷热程度。每篇科技文献的发表可以看作一个发表类型的科研事件,不同科研事件存在着多种关联,其中时序和因果是两种重要的关系。科技文献关联网络的时序增长规律和研究热点对于科技研究决策起到重要支撑作用。科技文献关联网络的增长规律蕴含了科技研究本身的发展规律,对科技研究前沿和热点把握,对于预测下一步的研究增长点和制高点具有重要意义。

 

本文为缩略版,全文见《中国科技资源导刊》2020年第1期

http://zxs.ijournals.cn/zgkjzydk/ch/reader/view_abstract.aspx?file_no=20200107&flag=1