基于LDA的新闻话题子话题划分方法

被引:17
作者
赵爱华 [1 ,2 ]
刘培玉 [1 ,2 ]
郑燕 [1 ,2 ]
机构
[1] 山东师范大学信息科学与工程学院
[2] 山东省分布式计算机软件新技术重点实验室
关键词
潜在狄利克雷分布(LDA); 子话题划分; 主题特征词; KL距离; 相似度计算;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率.
引用
收藏
页码:732 / 737
页数:6
相关论文
共 5 条
[1]   基于话题三层结构模型的话题演化分析算法 [J].
吕楠 ;
罗军勇 ;
刘尧 ;
杨慧洁 .
计算机工程, 2009, 35 (23) :71-72+75
[2]   基于子话题分治匹配的新事件检测 [J].
洪宇 ;
张宇 ;
范基礼 ;
刘挺 ;
李生 .
计算机学报, 2008, (04) :687-695
[3]   话题识别与跟踪中的层次化话题识别技术研究 [J].
于满泉 ;
骆卫华 ;
许洪波 ;
白硕 .
计算机研究与发展, 2006, (03) :489-495
[4]  
Asystemfor new event detection .2 T Brants,F Chen,and A Farahat. Proceedings of the26th SI-GIR conference on Research and development in in-formation retrieval . 2003
[5]  
A subtopic division in news special .2 Li Jun,Li Juan-zi. Proceedings of the 4th National Information Retrieval and ContentSafety Academic Conferences . 2008