基于关系代数的多源异构数据聚合模型研究

产出机构： 北京航空航天大学经济管理学院;北京航空航天大学计算机学院

提交机构： 中国科学技术信息研究所

产出日期： 2021-09-25

发布日期： 2021-11-26

作者：

摘要：

科技资源已成为推动科技进步的关键因素。科技资源的孤岛问题严重阻碍了科技资源的流通及共享，多源数据聚合成为有效解决该问题的关键。针对论文和专利两种不同来源的异构数据展开聚合研究。首先，利用模式匹配方法计算出目标表的结构；其次，利用关系代数的方式对数据调解与整合过程进行建模；最后，利用模型对异构数据进行聚合，得到了聚合的XML数据。在模式匹配中，匹配属性的余弦相似度最高达到0.748，并且聚合结果具有较强的可解释性，验证了该模型的可行性与正确性。

关键字： 科技资源;多源异构数据聚合;关系代数;模式匹配;属性相似度

近年来，随着数据密集型科研活动快速发展，数据管理的重要性日益上升，对科学数据管理和科学数据知识库提出了新的要求，需要考虑更加多源化的数据进行知识库的构建，而多源异构数据融合问题的理论部分研究依然匮乏，需要做进一步探索。综合利用和挖掘多元异质异构数据的基础就是数据聚合。本文认为数据聚合主要需要处理更高级别信息组结构的构建和多种低层次信息在高级别信息组中的标识两方面问题，基于此构建了二源异构数据的聚合模型，并在实际数据的应用中取得了较好的效果。

对于高级别信息组结构构建这一问题，本文采用模式识别与人工制定规则相结合的方法来解决。本文将属性分为实例值为纯字符串的纯字符串属性和实例值为字母或数字编码的编码类属性两类。本文采用模式匹配的方法计算两个异构数据表中纯字符串属性之间的相似度，首先使用Word2Vec将属性实例值转化为词向量，再通过加权平均的方式得到属性的数值向量，进而计算属性间的余弦相似度，最后选取相似度超过设定阈值的属性对进行匹配。对于编码类属性，本文将其细分为日期类、类别类、ID类三类，根据其不同的特点人工设定不同规则来实现此类属性的匹配。同时，本文发现ID类属性在不同情境下的格式相差较大，认为在一组实例值中通过发现可能存在的特定格式进而识别出ID类属性目前较为困难，需要进一步探索。

对于多种低层次信息在高级别信息组中的标识问题，本文在二源异构数据聚合情境下使用关系代数为该过程建立了模型。该过程主要分为调解阶段和整合阶段。在调解阶段，通过人工制定一张调解辅助表实现将原关系模式的主键映射为数据仓库中目标关系模式的主键；在整合阶段，又分为更新原有数据和新数据写入两种过程，主要思想均为利用调解阶段提供的目标关系模式的主键来实现记录的匹配与更改。

本文将上述构建的模型应用在了EXCEL存储的专利数据和XML存储的论文数据的聚合问题上，成功构建了目标表的结构，匹配属性的余弦相似度最高达到了0.748，经过人工验证后认为结果具有较好的可解释性，但仍需要一定程度的人工调整作为辅助。此外，本文发现属性与记录对象之间暗含关系的挖掘也是目前的难点之一，例如论文与属性“journal”、专利与申请地之间都存在归属关系，但这种关系难以通过计算得到，因此人工干预仍必不可少。最后本文成功将论文和专利数据写入目标表，并以XML文件的形式储存。

本文对数据聚合的整个流程进行了建模，在一定程度上弥补了此前研究相对局限于部分流程的问题，使用更加完整的数据聚合模型可以为整个过程提供更完善的理论指导，使得在不同情境下的多源数据聚合能够更加方便的构建整个流程框架。

本文为《中国科技资源导刊》2021年第5期《基于关系代数的多源异构数据聚合模型研究》缩略版，全文见附件。

附件下载：

基于关系代数的多源异构数据聚合模型研究.pdf