学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于词共现图的中文微博新闻话题识别
被引:27
作者
:
论文数:
引用数:
h-index:
机构:
赵文清
论文数:
引用数:
h-index:
机构:
侯小可
机构
:
[1]
华北电力大学控制与计算机工程学院
来源
:
智能系统学报
|
2012年
/ 7卷
/ 05期
基金
:
中央高校基本科研业务费专项资金资助;
关键词
:
微博;
新闻话题;
新闻话题识别;
主题词;
词共现图;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性.
引用
收藏
页码:444 / 449
页数:6
相关论文
共 10 条
[1]
基于隐主题分析和文本聚类的微博客中新闻话题的发现
论文数:
引用数:
h-index:
机构:
路荣
论文数:
引用数:
h-index:
机构:
项亮
论文数:
引用数:
h-index:
机构:
刘明荣
论文数:
引用数:
h-index:
机构:
杨青
[J].
模式识别与人工智能,
2012,
25
(03)
: 382
-
387
[2]
一种基于词共现的文档聚类算法
常鹏
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学管理与经济学部
天津大学信息与网络中心
天津大学管理与经济学部
常鹏
冯楠
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学管理与经济学部
天津大学管理与经济学部
冯楠
马辉
论文数:
0
引用数:
0
h-index:
0
机构:
天津城市建设学院管理工程系
天津大学管理与经济学部
马辉
[J].
计算机工程,
2012,
38
(02)
: 213
-
214+220
[3]
一种中文微博新闻话题检测的方法
郑斐然
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
郑斐然
苗夺谦
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
苗夺谦
张志飞
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
张志飞
高灿
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
高灿
[J].
计算机科学,
2012,
39
(01)
: 138
-
141
[4]
动态向量的中文短文本聚类
论文数:
引用数:
h-index:
机构:
金春霞
周海岩
论文数:
0
引用数:
0
h-index:
0
机构:
淮阴工学院计算机工程学院
周海岩
[J].
计算机工程与应用,
2011,
47
(33)
: 156
-
158
[5]
高效的短文本主题词抽取方法
常鹏
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学管理学院
天津大学管理学院
常鹏
马辉
论文数:
0
引用数:
0
h-index:
0
机构:
天津城市建设学院管理系
天津大学管理学院
马辉
[J].
计算机工程与应用,
2011,
47
(20)
: 126
-
128+154
[6]
大规模短文本的不完全聚类
论文数:
引用数:
h-index:
机构:
彭泽映
论文数:
引用数:
h-index:
机构:
俞晓明
论文数:
引用数:
h-index:
机构:
许洪波
论文数:
引用数:
h-index:
机构:
刘春阳
[J].
中文信息学报,
2011,
25
(01)
: 54
-
59
[7]
基于字符串相似性聚类的网络短文本舆情热点发现技术
杨震
论文数:
0
引用数:
0
h-index:
0
机构:
北京工业大学计算机学院
杨震
段立娟
论文数:
0
引用数:
0
h-index:
0
机构:
北京工业大学计算机学院
段立娟
论文数:
引用数:
h-index:
机构:
赖英旭
[J].
北京工业大学学报,
2010,
36
(05)
: 669
-
673
[8]
一种高稳定性词汇共现模型
乔亚男
论文数:
0
引用数:
0
h-index:
0
机构:
西安交通大学计算机科学与技术系
乔亚男
论文数:
引用数:
h-index:
机构:
齐勇
论文数:
引用数:
h-index:
机构:
侯迪
[J].
西安交通大学学报,
2009,
43
(06)
: 24
-
27
[9]
一种基于词共现图的文档主题词自动抽取方法
耿焕同
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学技术系
耿焕同
论文数:
引用数:
h-index:
机构:
蔡庆生
论文数:
引用数:
h-index:
机构:
于琨
论文数:
引用数:
h-index:
机构:
赵鹏
[J].
南京大学学报(自然科学版),
2006,
(02)
: 156
-
162
[10]
一种基于词共现图的文档自动摘要研究[J]. 耿焕同,蔡庆生,赵鹏,于琨.情报学报. 2005 (06)
←
1
→
共 10 条
[1]
基于隐主题分析和文本聚类的微博客中新闻话题的发现
论文数:
引用数:
h-index:
机构:
路荣
论文数:
引用数:
h-index:
机构:
项亮
论文数:
引用数:
h-index:
机构:
刘明荣
论文数:
引用数:
h-index:
机构:
杨青
[J].
模式识别与人工智能,
2012,
25
(03)
: 382
-
387
[2]
一种基于词共现的文档聚类算法
常鹏
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学管理与经济学部
天津大学信息与网络中心
天津大学管理与经济学部
常鹏
冯楠
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学管理与经济学部
天津大学管理与经济学部
冯楠
马辉
论文数:
0
引用数:
0
h-index:
0
机构:
天津城市建设学院管理工程系
天津大学管理与经济学部
马辉
[J].
计算机工程,
2012,
38
(02)
: 213
-
214+220
[3]
一种中文微博新闻话题检测的方法
郑斐然
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
郑斐然
苗夺谦
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
苗夺谦
张志飞
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
张志飞
高灿
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与技术系
高灿
[J].
计算机科学,
2012,
39
(01)
: 138
-
141
[4]
动态向量的中文短文本聚类
论文数:
引用数:
h-index:
机构:
金春霞
周海岩
论文数:
0
引用数:
0
h-index:
0
机构:
淮阴工学院计算机工程学院
周海岩
[J].
计算机工程与应用,
2011,
47
(33)
: 156
-
158
[5]
高效的短文本主题词抽取方法
常鹏
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学管理学院
天津大学管理学院
常鹏
马辉
论文数:
0
引用数:
0
h-index:
0
机构:
天津城市建设学院管理系
天津大学管理学院
马辉
[J].
计算机工程与应用,
2011,
47
(20)
: 126
-
128+154
[6]
大规模短文本的不完全聚类
论文数:
引用数:
h-index:
机构:
彭泽映
论文数:
引用数:
h-index:
机构:
俞晓明
论文数:
引用数:
h-index:
机构:
许洪波
论文数:
引用数:
h-index:
机构:
刘春阳
[J].
中文信息学报,
2011,
25
(01)
: 54
-
59
[7]
基于字符串相似性聚类的网络短文本舆情热点发现技术
杨震
论文数:
0
引用数:
0
h-index:
0
机构:
北京工业大学计算机学院
杨震
段立娟
论文数:
0
引用数:
0
h-index:
0
机构:
北京工业大学计算机学院
段立娟
论文数:
引用数:
h-index:
机构:
赖英旭
[J].
北京工业大学学报,
2010,
36
(05)
: 669
-
673
[8]
一种高稳定性词汇共现模型
乔亚男
论文数:
0
引用数:
0
h-index:
0
机构:
西安交通大学计算机科学与技术系
乔亚男
论文数:
引用数:
h-index:
机构:
齐勇
论文数:
引用数:
h-index:
机构:
侯迪
[J].
西安交通大学学报,
2009,
43
(06)
: 24
-
27
[9]
一种基于词共现图的文档主题词自动抽取方法
耿焕同
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学技术系
耿焕同
论文数:
引用数:
h-index:
机构:
蔡庆生
论文数:
引用数:
h-index:
机构:
于琨
论文数:
引用数:
h-index:
机构:
赵鹏
[J].
南京大学学报(自然科学版),
2006,
(02)
: 156
-
162
[10]
一种基于词共现图的文档自动摘要研究[J]. 耿焕同,蔡庆生,赵鹏,于琨.情报学报. 2005 (06)
←
1
→