文献关键词的统计学特征及其在叙词表编制中的应用
我国编制的叙词表与文献用词的重合度不高,这对叙词表的自动化应用是不利的。利用文献关键词作为叙词表词源,可保证叙词表收词的更具客观性和实用性,这与叙词表编制的用户保证和文献保证原则是一致的。本文基于万方期刊文献数据库对文献关键词词频分布特征进行统计分析,发现文献关键词词频分布为齐夫分布,低频词占比是一个相对稳定的数值,与词汇集合样本大小无关。词频为1的词汇占关键词集合的70%。利用此规律研究了基于关键词的叙词表规模的确定、词汇的筛选,以及词汇归类的方法。
目 录
1 研究背景2
2 数据来源与预处理4
3 关键词的原始属性4
4 关键词分布特征及叙词表收词规模的确定4
4.1 关键词词频的齐夫分布特征4
4.2 叙词表收词规模的确定7
5 关键词归类与叙词表词汇筛选8
5.1 基于tf-idf模型的专业词汇筛选8
5.1.1 tf-idf模型在文献关键词归类中的应用8
5.1.2 对tf及idf因子的修正9
5.2 关键词的学科相关度计算与叙词表专业词汇筛选10