学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于隐主题分析的中文微博话题发现
被引:39
作者
:
论文数:
引用数:
h-index:
机构:
史剑虹
论文数:
引用数:
h-index:
机构:
陈兴蜀
论文数:
引用数:
h-index:
机构:
王文贤
机构
:
[1]
四川大学计算机学院网络与可信计算研究所
来源
:
计算机应用研究
|
2014年
/ 31卷
/ 03期
关键词
:
中文微博;
话题发现;
隐主题模型;
文本聚类;
频繁项集挖掘;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。
引用
收藏
页码:700 / 704
页数:5
相关论文
共 4 条
[1]
基于词共现图的中文微博新闻话题识别
[J].
论文数:
引用数:
h-index:
机构:
赵文清
;
论文数:
引用数:
h-index:
机构:
侯小可
.
智能系统学报,
2012,
7
(05)
:444
-449
[2]
基于隐主题分析和文本聚类的微博客中新闻话题的发现
[J].
论文数:
引用数:
h-index:
机构:
路荣
;
论文数:
引用数:
h-index:
机构:
项亮
;
论文数:
引用数:
h-index:
机构:
刘明荣
;
论文数:
引用数:
h-index:
机构:
杨青
.
模式识别与人工智能,
2012,
25
(03)
:382
-387
[3]
一种中文微博新闻话题检测的方法
[J].
郑斐然
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
郑斐然
;
苗夺谦
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
苗夺谦
;
张志飞
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
张志飞
;
高灿
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
高灿
.
计算机科学,
2012,
39
(01)
:138
-141
[4]
基于MB-LDA模型的微博主题挖掘
[J].
论文数:
引用数:
h-index:
机构:
张晨逸
;
论文数:
引用数:
h-index:
机构:
孙建伶
;
论文数:
引用数:
h-index:
机构:
丁轶群
.
计算机研究与发展,
2011,
(10)
:1795
-1802
←
1
→
共 4 条
[1]
基于词共现图的中文微博新闻话题识别
[J].
论文数:
引用数:
h-index:
机构:
赵文清
;
论文数:
引用数:
h-index:
机构:
侯小可
.
智能系统学报,
2012,
7
(05)
:444
-449
[2]
基于隐主题分析和文本聚类的微博客中新闻话题的发现
[J].
论文数:
引用数:
h-index:
机构:
路荣
;
论文数:
引用数:
h-index:
机构:
项亮
;
论文数:
引用数:
h-index:
机构:
刘明荣
;
论文数:
引用数:
h-index:
机构:
杨青
.
模式识别与人工智能,
2012,
25
(03)
:382
-387
[3]
一种中文微博新闻话题检测的方法
[J].
郑斐然
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
郑斐然
;
苗夺谦
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
苗夺谦
;
张志飞
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
张志飞
;
高灿
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
高灿
.
计算机科学,
2012,
39
(01)
:138
-141
[4]
基于MB-LDA模型的微博主题挖掘
[J].
论文数:
引用数:
h-index:
机构:
张晨逸
;
论文数:
引用数:
h-index:
机构:
孙建伶
;
论文数:
引用数:
h-index:
机构:
丁轶群
.
计算机研究与发展,
2011,
(10)
:1795
-1802
←
1
→