大规模文本分类的训练语料去噪研究科技报告

产出机构： 中国科学技术信息研究所

提交机构： 中国科学技术信息研究所

产出日期： 2021-01-08

发布日期： 2022-07-28

作者： 高雄;韩红旗;张运良;刘旭;

摘要：

随着互联网数据规模的不断增长，大规模文本分类自动标引工具成为当今大数据时代迫切需要的工具之一。自动标引工具的训练目前以监督学习方法为主，而训练语料的质量对于大规模文本分类自动标引工具准确率的提升至关重要。本项目研究旨在通过语义等信息来消除大规模文本分类中的训练语料的噪声，以提升其质量，从而达到提高大规模文本分类自动标引工具准确率的目的，为科研人员更准确地检索文献提供有力支撑。

目前专门针对大规模文本分类中的训练语料去噪问题的研究还较少，多集中于简单的基于正则表达式的方法，即通过分析常见的噪声类型，人工编写正则表达式规则，从而去除训练数据中的噪声；或是通过语言模型等方法，即计算一个词语序列构成一个句子的概率，或者说计算一个词语序列的联合概率，来判断一句话出现的概率高不高，是否符合日常的表达习惯，是否通顺，是否正确。这些方法只能去除“错别字、乱码、语法错误和不符合所属语言或领域的表达习惯”带来的噪声，而大规模文本分类中的训练语料的噪声多是“类别外噪声”，如：中图分类法A14（一级类目A：马克思主义、列宁主义、毛泽东思想、邓小平理论；二级类目A1：马克思、恩格斯著作；三级类目A14：诗词）类别的训练语料中出现了“基于‘地区’特点的风险投资环境的系统分析研究”这样的“语义”上明显不属于A14的数据。显然，“类别外噪声”是无法通过基于正则表达式或是语言模型的方法来消除的。

本研究重点利用语义信息来消除“类别外噪声”，通过对每个类别的训练语料构建“类目-主题词”知识库，利用“词嵌入”自动化比较其语义信息来判断该类别下是否存在噪声，并给出噪声数据候选列表，最后通过人机交互的方式消除噪声，从而提升大规模文本分类中的训练语料质量，进而不断提高自动标引工具的准确率，更好地在科技领域服务于科研人员。

关键字： 文本分类;预训练模型;去噪

1 引言

1.1 研究背景和意义

1.2 相关研究进展

1.3 研究思路和总体方案

2 大规模文本分类的训练语料去噪研究

2.1 构建分类文件系统

2.2 分析噪声类型与多策略去噪

2.3 “语义错误”类型噪声的消除

2.4 实践结果与分析

3 结论

参考文献

附录：三级类目嵌套字典