基于共享最近邻和马尔科夫聚类的网络新闻话题检测研究
对新闻数据进行话题检测,能够帮助用户快速了解最新网络热门话题,对于舆情监测、信息安全等具有重要意义。针对已有的话题检测方法对数据的内在结构信息利用不够充分导致对新闻文本进行话题检测的准确度总体不高的问题,本报告提出了一种基于共享最近邻和马尔科夫聚类的话题检测新方法snnMCL。本报告综合考虑网络新闻的共享最近邻的个数、秩次等信息来构建关联网络,进而使用马尔科夫聚类实现网络新闻话题的有效检测。为了公平地比较snnMCL与当前较为流行的四种话题检测方法,本报告在两个网络新闻数据集上进行了探索分析,其中snnMCL使用固定的默认参数,而参与比较的四种方法均选择它们的最优参数。实验结果表明,snnMCL能够更加有效地检测新闻话题并进行自动话题描述,其话题检测效果优于其他四种方法。本报告的工作可为话题检测关键技术研究提供有价值的参考。
目录
1 引言........................................................................................................................... 5
2 话题检测研究现状................................................................................................... 5
3 网络新闻数据........................................................................................................... 7
4 研究方法................................................................................................................... 8
4.1 基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法..................... 8
4.1.1 基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法........... 9
4.1.2 最优话题个数的决策......................................................................... 10
4.1.3 SNN图的构建..................................................................................... 11
4.1.4 基于MCL的话题检测....................................................................... 12
4.1.5 基于紧密中心度的自动话题描述..................................................... 12
4.2 参与比较的三种方法................................................................................... 13
4.3 评价指标....................................................................................................... 14
5 实验分析................................................................................................................. 15
5.1 数据预处理与实验设计............................................................................... 15
5.2 维数选择和最优话题个数的决策............................................................... 16
5.3 数据降维对话题检测结果的影响............................................................... 17
5.4 共享最近邻个数的选取对话题检测结果的影响....................................... 18
5.5 本文方法与其它话题检测方法的对比....................................................... 19
5.6 自动话题描述............................................................................................... 20
6 结论与展望............................................................................................................. 21
参考文献..................................................................................................................... 22
插图清单
图1 本报告的话题检测方法流程图..................................8
图2 维数选择和最优话题个数的决策...............................16
图3 降维对话题检测结果的影响...................................17
图4 共享最近邻个数对话题检测结果的影响.........................18
附表清单
表1 两个网络新闻数据集的话题主题及其数量........................7
表2 四种话题检测方法的实验结果对比.............................19
表3 自动话题描述...............................................20