学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于主题模型的舆情分析子系统研究与设计
被引:0
作者
:
高云棋
论文数:
0
引用数:
0
h-index:
0
机构:
电子科技大学
电子科技大学
高云棋
机构
:
[1]
电子科技大学
关键词
:
舆情监测;
主题模型;
特征提取;
文本处理;
D O I
:
暂无
年度学位
:
2013
学位类型
:
硕士
导师
:
刘丹;
摘要
:
随着互联网用户的不断增长,人们开始习惯于在网上对热点事件发表自己的看法和态度。然而,某些网民对敏感事件发表不实言论,或者借机煽动人们的不满情绪,这些行为都会对社会的稳定造成威胁。因而,各级政府和有关部门已经开始使用网络舆情监测系统应对这一问题。 现有的舆情监测系统多采用基于统计和关键词的方法,在词语层面进行分析,为了保证分析速度,需要进行特征提取以降低文本向量的维度,而这样做会损失大量的特征和语义信息,导致结果的不准确。本文针对上述问题,尝试将主题模型引入舆情监测领域,用于代替空间向量模型中的词语特征。相比传统系统,使用主题模型可以在提升分类、舆情判决等算法的准确度的前提下,进一步减少特征矩阵的维度,同时可以利用文本的主题表示生成关键词、摘要等辅助信息。本文主要内容为: 1.研究了常见分类算法在主题模型下的性能,并根据实验结果提出了一种基于主题特征和SVM的细粒度文本分类方法,测试结果表明,在模型参数适当的前提下,对于长文本,该方法可以在减少99%特征的情况下保持较好的分类性能,并能为舆情决策提供重要参考标准。 2.提出了一种针对单页面舆情的判决模型,该模型以主题特征为核心,综合词语、行文风格、作者等传统特征,能对不同类别的页面进行舆情判决,并通过决策树实验证明了该模型的有效性。 3.提出了一种基于主题特征的关键字和最短摘要提取算法。该算法使用已训练模型作为“相关领域信息”,可以提取单个文本的关键词和摘要。 4.详细设计并实现了舆情监测系统中的分析子系统,该子系统提供舆情预警、舆情搜索、摘要提取、报告生成的功能。最后,本文对其误报率、漏报率、分析速度等指标进行了测试,证明了系统的实用性和有效性。 测试表明,在舆情系统中使用LDA主题模型代替词语特征,并配合本文提出的细粒度文本分类算法和舆情判决模型,可以在进一步降低特征空间维数的同时,保持较低的误报率和漏报率。
引用
收藏
页数:94
共 18 条
[1]
一种基于LDA模型的主题句抽取方法
[J].
论文数:
引用数:
h-index:
机构:
王力
;
论文数:
引用数:
h-index:
机构:
李培峰
;
论文数:
引用数:
h-index:
机构:
朱巧明
.
计算机工程与应用 ,
2013,
(02)
:160
-164+257
[2]
基于观点挖掘的网络舆情信息分析
[J].
论文数:
引用数:
h-index:
机构:
吉祥
.
现代情报 ,
2010,
(11)
:46
-49
[3]
基于直觉模糊推理的网络舆情预警方法
[J].
李弼程
论文数:
0
引用数:
0
h-index:
0
机构:
解放军信息工程大学信息工程学院
李弼程
;
王瑾
论文数:
0
引用数:
0
h-index:
0
机构:
解放军信息工程大学信息工程学院
王瑾
;
林琛
论文数:
0
引用数:
0
h-index:
0
机构:
解放军信息工程大学信息工程学院
林琛
.
计算机应用研究,
2010,
27
(09)
:3312
-3315+3325
[4]
一种基于文档相似度的检索结果重排序方法
[J].
论文数:
引用数:
h-index:
机构:
周博
;
论文数:
引用数:
h-index:
机构:
岑荣伟
;
论文数:
引用数:
h-index:
机构:
刘奕群
;
论文数:
引用数:
h-index:
机构:
张敏
;
论文数:
引用数:
h-index:
机构:
金奕江
;
论文数:
引用数:
h-index:
机构:
马少平
.
中文信息学报,
2010,
(03)
:19
-23+36
[5]
网络舆情指标体系设计与分析
[J].
李雯静
论文数:
0
引用数:
0
h-index:
0
机构:
华东师范大学信息学系
华东师范大学信息学系
李雯静
;
论文数:
引用数:
h-index:
机构:
许鑫
;
陈正权
论文数:
0
引用数:
0
h-index:
0
机构:
江苏省省委办公厅
华东师范大学信息学系
陈正权
.
情报科学 ,
2009,
(07)
:986
-991
[6]
一种基于主动贝叶斯分类技术的垃圾邮件过滤方法
[J].
论文数:
引用数:
h-index:
机构:
李笛
;
论文数:
引用数:
h-index:
机构:
张玉红
;
论文数:
引用数:
h-index:
机构:
胡学钢
.
合肥工业大学学报(自然科学版),
2008,
(09)
:1443
-1446
[7]
基于机器学习的文本分类技术研究进展
[J].
苏金树
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
苏金树
;
张博锋
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
张博锋
;
论文数:
引用数:
h-index:
机构:
徐昕
.
软件学报,
2006,
(09)
:1848
-1859
[8]
使用最大熵模型进行中文文本分类
[J].
论文数:
引用数:
h-index:
机构:
李荣陆
;
王建会
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海,上海
王建会
;
论文数:
引用数:
h-index:
机构:
陈晓云
;
论文数:
引用数:
h-index:
机构:
陶晓鹏
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海,上海
胡运发
.
计算机研究与发展,
2005,
(01)
:94
-101
[9]
用于数据挖掘的贝叶斯网络
[J].
慕春棣
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学自动化系!北京
慕春棣
;
tsinghua.edu.cn
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学自动化系!北京
tsinghua.edu.cn
;
论文数:
引用数:
h-index:
机构:
戴剑彬
;
叶俊
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学自动化系!北京
叶俊
.
软件学报,
2000,
(05)
:660
-666
[10]
词典与统计相结合的中文分词的研究
[D].
岳中原
论文数:
0
引用数:
0
h-index:
0
机构:
武汉理工大学
武汉理工大学
岳中原
.
武汉理工大学,
2010
←
1
2
→
共 18 条
[1]
一种基于LDA模型的主题句抽取方法
[J].
论文数:
引用数:
h-index:
机构:
王力
;
论文数:
引用数:
h-index:
机构:
李培峰
;
论文数:
引用数:
h-index:
机构:
朱巧明
.
计算机工程与应用 ,
2013,
(02)
:160
-164+257
[2]
基于观点挖掘的网络舆情信息分析
[J].
论文数:
引用数:
h-index:
机构:
吉祥
.
现代情报 ,
2010,
(11)
:46
-49
[3]
基于直觉模糊推理的网络舆情预警方法
[J].
李弼程
论文数:
0
引用数:
0
h-index:
0
机构:
解放军信息工程大学信息工程学院
李弼程
;
王瑾
论文数:
0
引用数:
0
h-index:
0
机构:
解放军信息工程大学信息工程学院
王瑾
;
林琛
论文数:
0
引用数:
0
h-index:
0
机构:
解放军信息工程大学信息工程学院
林琛
.
计算机应用研究,
2010,
27
(09)
:3312
-3315+3325
[4]
一种基于文档相似度的检索结果重排序方法
[J].
论文数:
引用数:
h-index:
机构:
周博
;
论文数:
引用数:
h-index:
机构:
岑荣伟
;
论文数:
引用数:
h-index:
机构:
刘奕群
;
论文数:
引用数:
h-index:
机构:
张敏
;
论文数:
引用数:
h-index:
机构:
金奕江
;
论文数:
引用数:
h-index:
机构:
马少平
.
中文信息学报,
2010,
(03)
:19
-23+36
[5]
网络舆情指标体系设计与分析
[J].
李雯静
论文数:
0
引用数:
0
h-index:
0
机构:
华东师范大学信息学系
华东师范大学信息学系
李雯静
;
论文数:
引用数:
h-index:
机构:
许鑫
;
陈正权
论文数:
0
引用数:
0
h-index:
0
机构:
江苏省省委办公厅
华东师范大学信息学系
陈正权
.
情报科学 ,
2009,
(07)
:986
-991
[6]
一种基于主动贝叶斯分类技术的垃圾邮件过滤方法
[J].
论文数:
引用数:
h-index:
机构:
李笛
;
论文数:
引用数:
h-index:
机构:
张玉红
;
论文数:
引用数:
h-index:
机构:
胡学钢
.
合肥工业大学学报(自然科学版),
2008,
(09)
:1443
-1446
[7]
基于机器学习的文本分类技术研究进展
[J].
苏金树
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
苏金树
;
张博锋
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
张博锋
;
论文数:
引用数:
h-index:
机构:
徐昕
.
软件学报,
2006,
(09)
:1848
-1859
[8]
使用最大熵模型进行中文文本分类
[J].
论文数:
引用数:
h-index:
机构:
李荣陆
;
王建会
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海,上海
王建会
;
论文数:
引用数:
h-index:
机构:
陈晓云
;
论文数:
引用数:
h-index:
机构:
陶晓鹏
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海,上海
胡运发
.
计算机研究与发展,
2005,
(01)
:94
-101
[9]
用于数据挖掘的贝叶斯网络
[J].
慕春棣
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学自动化系!北京
慕春棣
;
tsinghua.edu.cn
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学自动化系!北京
tsinghua.edu.cn
;
论文数:
引用数:
h-index:
机构:
戴剑彬
;
叶俊
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学自动化系!北京
叶俊
.
软件学报,
2000,
(05)
:660
-666
[10]
词典与统计相结合的中文分词的研究
[D].
岳中原
论文数:
0
引用数:
0
h-index:
0
机构:
武汉理工大学
武汉理工大学
岳中原
.
武汉理工大学,
2010
←
1
2
→