基于加权隐含狄利克雷分配模型的新闻话题挖掘方法

被引:14
作者
李湘东 [1 ,2 ]
巴志超 [1 ]
黄莉 [3 ,4 ]
机构
[1] 武汉大学信息管理学院
[2] 武汉大学信息资源研究中心
[3] 武汉大学
[4] 武汉大学图书馆
关键词
新闻报道; 话题挖掘; 加权隐含狄利克雷分配模型; 类别区分词; 词序优化;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对传统新闻话题挖掘准确率不高、话题可解释性差等问题,结合新闻报道的体例结构特点,提出一种基于加权隐含狄利克雷分配(LDA)模型的新闻话题挖掘方法。首先从不同角度改进词汇权重并构造复合权值,扩展LDA模型生成特征词的过程,以获取表意性较强的词汇;其次,将类别区分词(CDW)方法应用于建模结果的词序优化上,以消除话题歧义和噪声、提高话题的可解释性;最后,依据模型话题概率分布的数学特性,从文档对话题的贡献度以及话题权值概率角度对话题进行量化计算,以获取热门话题。仿真实验表明:与传统LDA模型相比,改进方法的漏报率、误报率分别平均降低1.43%、0.16%,最小标准代价平均降低2.68%,验证了该方法的可行性和有效性。
引用
收藏
页码:1354 / 1359
页数:6
相关论文
共 17 条
[1]  
基于LDA的微博与传统媒体的话题对比研究.[D].周振宇.上海交通大学.2013, 07
[2]   基于LDA的新闻话题子话题划分方法 [J].
赵爱华 ;
刘培玉 ;
郑燕 .
小型微型计算机系统, 2013, 34 (04) :732-737
[3]   用于中文文本分类的基于类别区分词的特征选择方法 [J].
周奇年 ;
张振浩 ;
徐登彩 .
计算机应用与软件, 2013, 30 (03) :193-195
[4]   基于规则和统计相结合的中文命名实体识别研究 [J].
潘正高 .
情报科学, 2012, 30 (05) :708-712+786
[5]   网络攻击常见方式及其防范策略探析 [J].
王子庆 .
信息与电脑(理论版), 2011, (08) :100+102-100
[6]   基于LDA模型的新闻话题的演化 [J].
楚克明 ;
李芳 .
计算机应用与软件, 2011, 28 (04) :4-7+26
[7]   改进的概率潜在语义分析下的文本聚类算法 [J].
张玉芳 ;
朱俊 ;
熊忠阳 .
计算机应用, 2011, 31 (03) :674-676+693
[8]   基于潜在语义分析的构件聚类改进方法 [J].
任姚鹏 ;
陈立潮 ;
张英俊 ;
谢斌红 .
计算机工程, 2011, 37 (04) :67-69
[9]   基于主题的自适应、在线网络热点发现方法及新闻推荐系统 [J].
吴永辉 ;
王晓龙 ;
丁宇新 ;
徐军 ;
郭鸿志 .
电子学报, 2010, 38 (11) :2620-2624
[10]   基于Web的新闻文本分类技术的研究 [J].
胡凌云 ;
胡桂兰 ;
徐勇 ;
李龙澍 .
安徽大学学报(自然科学版), 2010, 34 (06) :66-70