首页> 关注此文用户还关注:

相关文档探测方法在科技查新中的应用研究

产出机构: 中国科学技术信息研究所
提交机构: 中国科学技术信息研究所
产出日期: 2020-01-27   
发布日期: 2020-05-29   
作者: 曹燕;何晓敏;陈亮;毛一雷;孙洁;

 

摘要: 

当前科技查新工作的特点是高人力、低效率、难复制,查新结果的质量受查新人员业务水平和领域背景知 识影响较大,纯粹依靠人工进行查新检索和对检索结果相关性判别无论是从效率还是准确率方面均无法适应科技创新 对科技查新工作的新要求。在大数据时代,计算机技术和人工智能的介入可以在一定程度上提高查新的效率和质量。 首先提出适用于科技查新业务的相关文档探测方法,将可用信息从文本相似度拓展到词汇、主题和语义维度,来捕捉 查新点和科学技术要点与相关文档的关联关系,进而抽取相关特征并将其集成到条件随机场中进行相关文档探测。然 后以全国科技查新事实型数据库为数据基础开展实验。实验表明,本文所提出的相关文档探测方法取得了较好的效 果,有助于从数据科学和人工智能的角度来理解科技查新的业务和数据,为科技查新的自动化、智能化提供相应参考。

关键字: 科技查新;相关文档探测;条件随机场;特征选取;文本相似度;共现词汇

当前科技查新工作的特点是高人力、低效率、难复制,查新结果的质量受查新员业务水平和领域背景知识影响较大,纯粹依靠人工进行查新检索和对检索结果相关性判别无论是从效率还是准确率方面均无法适应科技创新对科技查新工作的新要求。在大数据时代,计算机技术和人工智能的介入可以在一定程度上提高查新的效率和质量,本文提出适用于科技查新业务的相关文档探测方法,将可用信息从文本相似度拓展到词汇、主题和语义维度,来捕捉查新点和科学技术要点与相关文档的关联关系,进而抽取相关特征并将其集成到条件随机场中进行相关文档探测。并以全国科技查新事实型数据库为数据基础开展实验,实验表明,本文所提出的相关文档探测方法取得了较好的效果,这对从数据科学和人工智能的角度来理解科技查新的业务和数据,为科技查新的自动化、智能化提供相应参考。

研究发现,以人工检索与判别为主的传统科技查新存在两个不足:第一,严重依赖人力和专家资源,在科技发展速度不断加快,科技查新业务爆炸性增长的今天,传统方式难以应对海量业务;第二,科技查新并非简单的文献检索问题,应是文献检索与情报分析相结合的情报研究工作。同时科技查新相关文献的判定过程可以转化为相关度的研究过程,即根据文献能够覆盖查新点的多少来确定文献与查新点的相关度[7]。另外人工智能技术取得了长足发展,利用机器学习技术对科技查新流程进行更新和升级,有其必要性和紧迫性。

1.科技查新数据特征

本文实验数据集来源于中国科学技术信息研究所构建的科技查新事实型数据库,该数据集共有2000条文本,其中包含的字段有:查新报告id、查新报告编号、查新点、检索式、项目名称、委托人、委托日期、查新目的、所属技术领域、学科领域、查新结果、查新结论、查新项目的科学技术要点、查新范围、检索范围、文献检索范围及检索策略。涉及到的领域有地球科学、测绘科学技术、生物学、动力与电气工程、化学工程、土木建筑工程、电子通信与自动控制技术、计算机科学技术、材料科学、机械工程、临床医学等等学科领域。

本文在数据的特征选取阶段,充分考虑查新点和项目科学技术要点本身的状态特征,以及查新点与项目的科学技术要点与相关文献之间的相互关系即转移特征,最终选取文本相似度、共词数目、共现词汇特征、共现词汇数目等特征。

2.基于CRF的相关文档探测方法的应用

根据科技查新数据的特征和条件随机场模型的使用范围,来构建适用于科技查新数据的条件随机场模型。最后将数据集按照7:3的比例分为训练集与测试集,并将每条数据集的特征集成到基于CRF的科技查新相关文档探测模型中。

最终化简后的模型为:

代入各个特征函数可以得到:

其中特征函数f1& #40;xi,yj& #41;代表的特征是文本相似度,f2& #40;xi,yj& #41;代表的特征是共词数目,f3& #40;xi,yj& #41;代表的特征是共现词汇特征,f4& #40;xi,yj& #41;代表的是共现词汇数目。w1,w2,w3,w4表示各个特征在分类中的权重大小。

3.结果分析

本文从有效性和复杂性两个方面来对模型进行评价,本文有效性常用的评价指标有准确率(Accuracy),精确率& #40;Precision& #41;,召回率& #40;Recall& #41;和综合评价指标F1值(对精确率和召回率的综合评价)。

研究发现:加入共现词汇特征后的条件随机场模型在精确率、召回率、F1值上都比没有加入词汇特征时表现地更有优势,效果更好。

当只用文本相似度、共现词汇数目、共现词汇主题分类以及C=10时进行训练模型的时候,精确率、召回率、F1值都比较低,若把参数C调整到20时,模型的指标有稍微提升,但是提升的幅度非常小。当在模型中加入50个特征词汇并且将参数C设为20时,精确率、召回率、F1值都有明显的上升。随着特征数由50到450,除了精确率的变化幅度稍小(基本上稳定在87%),召回率和F1值随着特征数目的增多而有了显著地提高;当特征数到达500并且高于500的时候,精确率、召回率、F1值都开始下降了。

所以当用查新点与相关文献进行相关性探测时,准确率几乎没有什么变化,基本上稳定在99%以上;精确度并不是随着特征数目的增加就会提升,它最好的状态是在450特征时,达到了88.52%;召回率是随着特征数目的增加在逐步显著增加着,在450特征时,达到了70.39%;F1值也是随着特征数目的增加在逐步增加,在450特征时,达到了77.62%。

在科技查新业务工作中,文献检索和对检索文献分析对比是科技查新进行新颖性判断的重中之重,但是目前的科技查新业务主要是依靠人工进行,处于一种高人力、低效率、难复制的困境。在大数据时代,计算机和人工智能介入科技查新是大势所趋,用自动化手段帮助查新员进行查新工作在一定程度上可以提高查新的效率和质量。本文构建了一种基于多维度特征的相关文档探测方法,来捕捉查新点相关文档的关联关系,并将相关特征集成到条件随机场中进行相关文档探测。实验中我们还发现,在科技查新领域中,文本相似度特征在模型中的贡献较弱,贡献度较大的是适当数目的共现词汇,间接表明了文本相似度这一指标只是科技查新要考虑的诸多因素的一种,除此之外还有很多因素,可以对科技查新效果提供直接贡献,比如共现词汇及其数量、专业词汇,同义词表等,这说明要提升科技查新效果,领域词表的构建至关重要。此外,可以引入其他信息类型,比如文献类别、引文信息、作者信息等,这些都能够提升科技查新效果。

 

本文为缩略版,全文见《中国科技资源导刊》2020年第1期

http://zxs.ijournals.cn/zgkjzydk/ch/reader/view_abstract.aspx?file_no=20200109&flag=1