基于主题模型的舆情分析子系统研究与设计

被引:0
作者
高云棋
机构
[1] 电子科技大学
关键词
舆情监测; 主题模型; 特征提取; 文本处理;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
随着互联网用户的不断增长,人们开始习惯于在网上对热点事件发表自己的看法和态度。然而,某些网民对敏感事件发表不实言论,或者借机煽动人们的不满情绪,这些行为都会对社会的稳定造成威胁。因而,各级政府和有关部门已经开始使用网络舆情监测系统应对这一问题。 现有的舆情监测系统多采用基于统计和关键词的方法,在词语层面进行分析,为了保证分析速度,需要进行特征提取以降低文本向量的维度,而这样做会损失大量的特征和语义信息,导致结果的不准确。本文针对上述问题,尝试将主题模型引入舆情监测领域,用于代替空间向量模型中的词语特征。相比传统系统,使用主题模型可以在提升分类、舆情判决等算法的准确度的前提下,进一步减少特征矩阵的维度,同时可以利用文本的主题表示生成关键词、摘要等辅助信息。本文主要内容为: 1.研究了常见分类算法在主题模型下的性能,并根据实验结果提出了一种基于主题特征和SVM的细粒度文本分类方法,测试结果表明,在模型参数适当的前提下,对于长文本,该方法可以在减少99%特征的情况下保持较好的分类性能,并能为舆情决策提供重要参考标准。 2.提出了一种针对单页面舆情的判决模型,该模型以主题特征为核心,综合词语、行文风格、作者等传统特征,能对不同类别的页面进行舆情判决,并通过决策树实验证明了该模型的有效性。 3.提出了一种基于主题特征的关键字和最短摘要提取算法。该算法使用已训练模型作为“相关领域信息”,可以提取单个文本的关键词和摘要。 4.详细设计并实现了舆情监测系统中的分析子系统,该子系统提供舆情预警、舆情搜索、摘要提取、报告生成的功能。最后,本文对其误报率、漏报率、分析速度等指标进行了测试,证明了系统的实用性和有效性。 测试表明,在舆情系统中使用LDA主题模型代替词语特征,并配合本文提出的细粒度文本分类算法和舆情判决模型,可以在进一步降低特征空间维数的同时,保持较低的误报率和漏报率。
引用
收藏
页数:94
共 18 条
[1]
一种基于LDA模型的主题句抽取方法 [J].
王力 ;
李培峰 ;
朱巧明 .
计算机工程与应用 , 2013, (02) :160-164+257
[2]
基于观点挖掘的网络舆情信息分析 [J].
吉祥 .
现代情报 , 2010, (11) :46-49
[3]
基于直觉模糊推理的网络舆情预警方法 [J].
李弼程 ;
王瑾 ;
林琛 .
计算机应用研究, 2010, 27 (09) :3312-3315+3325
[4]
一种基于文档相似度的检索结果重排序方法 [J].
周博 ;
岑荣伟 ;
刘奕群 ;
张敏 ;
金奕江 ;
马少平 .
中文信息学报, 2010, (03) :19-23+36
[5]
网络舆情指标体系设计与分析 [J].
李雯静 ;
许鑫 ;
陈正权 .
情报科学 , 2009, (07) :986-991
[6]
一种基于主动贝叶斯分类技术的垃圾邮件过滤方法 [J].
李笛 ;
张玉红 ;
胡学钢 .
合肥工业大学学报(自然科学版), 2008, (09) :1443-1446
[7]
基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[8]
使用最大熵模型进行中文文本分类 [J].
李荣陆 ;
王建会 ;
陈晓云 ;
陶晓鹏 ;
胡运发 .
计算机研究与发展, 2005, (01) :94-101
[9]
用于数据挖掘的贝叶斯网络 [J].
慕春棣 ;
tsinghua.edu.cn ;
戴剑彬 ;
叶俊 .
软件学报, 2000, (05) :660-666
[10]
词典与统计相结合的中文分词的研究 [D]. 
岳中原 .
武汉理工大学,
2010