首页> 关注此文用户还关注:

中国科学技术信息研究所多语言文献知识库构建

产出机构: 中国科学技术信息研究所
提交机构: 中国科学技术信息研究所
产出日期: 2020-12-10   
发布日期: 2021-07-20   
作者:

 

摘要: 

从人工智能概念被提出开始,构建大规模的知识库一直都是人工智能、自然语言处理等领域的核心任务之一。一方面,当前,网络知识用户国际化和多语种化分布两大趋势日渐凸显,这使得建设网络化、多语言的文献知识库成为未来知识挖掘的总体趋势。在全球化和国际化的背景下,研讨、构建和完善多语言文献知识库顺应了知识融通、信息资源共享的时代要求。另一方面,为解决信息技术的快速发展所带来的各民族语言发展的不平衡问题和日益加剧的“数字鸿沟”,通过建设多语言知识库把各民族的语言、文化和发展有机地融合在一起,促进语言的多样性和文化的多样性将具有重要研究意义。总体而言,研讨和组织建设多语言文献知识库,将是一个利及千秋、造福国家民族的系统工程。

在前期研究中,多语言文献知识库的构建已经形成较为完整的理论和技术体系。一方面,多语言文献知识库构建已经形成较为完整的理论。知识库、文献知识库和跨语言信息检索等基本概念已基本厘清;对关键方法的讨论已有较为详实的内容,包括对知识库的构建方法、信息资源的语义表达方法、多语言领域本体的知识挖掘框架构建方法和采用知识图谱建立领域知识库的方法的前期阐述。另一方面,多语言文献知识库构建已经形成较为成熟的技术体系。包括知识发现技术、知识抽取与挖掘技术、知识表示与建模技术、知识融合与存储技术和知识查询技术。

科技文献元数据知识三元组生成系统是中信所多语言知识挖掘和分析平台的核心模块,该多语言知识挖掘平台具有中、英、俄等语言文献的互译和实体挖掘能力。科技文献元数据知识三元组生成系统的主要目的是将Excel表格存储的文献元数据转换为RDF(资源描述框架)三元组格式进行存储。该系统采用Python语言开发,通过定制的实体模板将文献元数据转换为本体知识库(RDF4J)所接受的实例三元组,实现二维数据表格到实体关系图的存储和管理,帮助科研工作者快速的定位所关注的研究要点。

与传统的知识库相比较,本研究构建的多语言文献知识库系统具有一定的进步性:第一,实现了从资源人工排加,到信息检索电子化,再至工作平台网络化的转变,运用了网络化的知识组织体系,顺应了现代化图书情报工作对互联网化工作范式的要求;第二,运用RDFS/OWL2资源描述工具使得构建模型从知识库中分离,实现了工作方式的转变;第三,本研究的多语言文献知识库模型,进一步促进了网络信息资源的知识共享和知识大融合;第四,本研究运用了自有的翻译引擎,实现了多语言知识的提供,这为进一步将理论与技术运用于多语言领域,进行多语言、动态化、细粒度的知识抽取与组织,进而实现基于语义的知识挖掘成为可能。

本研究共分为七个章节。第一章,引言。第二章,介绍文献资源的管理和组织的发展;第三章,介绍知识库的构建方法;第四章,介绍多语言文献知识系统的构建。从多语言文献知识模型、本体知识库的组织与表示入手,介绍RDF资源描述框架、OWL网络本体语言和知识三元组序列化方法,以及本体知识模型构建工具、知识三元组的查询模式、多语言文献三元组的生成方法和知识资源管理和发布;第五章,着重介绍多语言文献知识系统的管理和维护;第六章,对多语言文献知识内容进行展示;第七章,围绕本知识库规模、性能和技术特点进行研究总结。

关键字: 多语言;文献知识库;知识本体

目  录

1 引言

2 文献资源的管理和组织的发展

2.1 传统图书资料组织管理

2.2 电子文档组织管理

2.3 网络化数字资源组织管理

2.4 语义web资源组织管理

3 知识库的构建方法

3.1 知识表示方法

3.1.1 框架

3.1.2 脚本

3.1.3 语义网络

3.1.4 逻辑

3.2 典型的知识库系统

3.2.1 Cyc常识知识库

3.2.2 WordNet英文概念知识库

3.2.3 HowNet中文概念知识库

3.2.4 典型知识库系统的总体特点

3.3 利用语义web技术构建的知识库

3.3.1 Wikidata

3.3.2 Freebase

3.3.3 Yago

3.3.4 Linked Data

3.3.5 国内开发的知识库系统

3.3.6 利用语义web技术构建知识库的总体特点

4 多语言文献知识系统的构建

4.1 多语言文献知识模型

4.2 本体知识库的组织与表示

4.2.1 RDF资源描述框架

4.2.2 OWL网络本体语言

4.2.3 知识三元组序列化方法

4.3 本体知识模型构建工具介绍

4.4 知识三元组的查询模式

4.4.1 基本查询

4.4.2 数据集合查询

4.4.3 功能性查询

4.5 多语言文献知识三元组的生成方法

4.5.1 三元组的生成过程

4.5.2 实例唯一标识的生成

4.5.3 知识资源模板

4.6 知识资源的管理和发布

4.6.1 关系数据转换工具D2RServer

4.6.2 高性能三元组存储和检索工具Virtuoso

4.6.3 三元组发布和浏览工具Pubby

4.6.4 轻量级三元组存储和管理工具RDF4J

5 多语言文献知识系统的管理和维护

5.1 服务接口的实现方法

5.1.1 SOAP式Web服务

5.1.2 RESTful式Web服务

5.2 系统目录结构

5.3 管理界面

5.4 服务接口的调用

5.4.1 知识服务接口的启动和调用

5.4.2 客户端界面

5.4.3 数据检索模式

6 多语言文献知识内容的展示

6.1 科研要素关联图

6.2 科研要素统计图

7 研究总结

7.1 知识规模和性能统计

7.2 技术特点