基于LDA模型的移动投诉文本热点话题识别

被引:11
作者
方小飞 [1 ]
黄孝喜 [1 ]
王荣波 [1 ]
谌志群 [1 ]
王小华 [1 ,2 ]
机构
[1] 杭州电子科技大学计算机学院
[2] 中国计量大学
关键词
移动投诉; k-means; 话题识别; LDA模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的】运用中文信息处理和话题识别与追踪的方法,从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手,使用k-means先对文本聚类。利用LDA对每个类进行建模,提取话题,并从词频、词跨度和词长三方面计算每个话题中词的权值,把权重最大的词作为该话题的标签,并计算每个话题的文档分布概率均值。对具有相同标签的话题,先按照均值最大的原则去掉重复标签话题,再对所有话题计算文档支持率,并将文档支持率作为话题的热度,通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模,通过对比一般话题和热点话题,得出热点话题的支持文档率至少是一般话题的3倍,支持文档率变化趋势也比一般话题高,说明本文算法是有效的。【局限】没有考虑到话题之间的语义关系。【结论】利用LDA模型对移动投诉话题检测初探的方法是比较合理和有效的,对今后此领域的研究具有一定的借鉴意义。
引用
收藏
页码:19 / 27
页数:9
相关论文
共 10 条
[1]  
基于微博的热点话题发现.[D].朱颖.西南大学.2014, 09
[2]  
Python数据分析与挖掘实战.[M].张良均;王路;谭立云;苏剑林.机械工业出版社.2015, 978-7-111-52123-5
[3]   Learning Author-Topic Models from Text Corpora [J].
Rosen-Zvi, Michal ;
Chemudugunta, Chaitanya ;
Griffiths, Thomas ;
Smyth, Padhraic ;
Steyvers, Mark .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2010, 28 (01)
[4]   科技情报分析中LDA主题模型最优主题数确定方法研究 [J].
关鹏 ;
王曰芬 .
现代图书情报技术, 2016, (09) :42-50
[5]   基于LDA模型的论坛热点话题识别和追踪 [J].
徐佳俊 ;
杨飏 ;
姚天昉 ;
付中阳 .
中文信息学报, 2016, (01) :43-49
[6]   基于EM-LDA综合模型的电商微博热点话题发现 [J].
伍万坤 ;
吴清烈 ;
顾锦江 .
现代图书情报技术, 2015, (11) :33-40
[7]   基于LDA模型和微博热度的热点挖掘 [J].
唐晓波 ;
向坤 .
图书情报工作, 2014, 58 (05) :58-63
[8]   基于LDA的微博文本主题建模方法研究述评 [J].
张培晶 ;
宋蕾 .
图书情报工作, 2012, 56 (24) :120-126
[9]   基于MB-LDA模型的微博主题挖掘 [J].
张晨逸 ;
孙建伶 ;
丁轶群 .
计算机研究与发展, 2011, (10) :1795-1802
[10]   K-means算法研究综述 [J].
吴夙慧 ;
成颖 ;
郑彦宁 ;
潘云涛 .
现代图书情报技术, 2011, (05) :28-35