学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于字符串相似性聚类的网络短文本舆情热点发现技术
被引:59
作者
:
论文数:
引用数:
h-index:
机构:
杨震
论文数:
引用数:
h-index:
机构:
段立娟
论文数:
引用数:
h-index:
机构:
赖英旭
机构
:
[1]
北京工业大学计算机学院
来源
:
北京工业大学学报
|
2010年
/ 36卷
/ 05期
基金
:
北京市自然科学基金;
关键词
:
舆情分析;
短文本处理;
层次聚类;
D O I
:
暂无
中图分类号
:
TP393.09 [];
学科分类号
:
摘要
:
将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题.实验结果表明,本文提出方法有效.
引用
收藏
页码:669 / 673
页数:5
相关论文
共 4 条
[1]
SMS-2008标注中文短信息库
[J].
论文数:
引用数:
h-index:
机构:
马旭
;
论文数:
引用数:
h-index:
机构:
徐蔚然
;
论文数:
引用数:
h-index:
机构:
郭军
;
胡日勒
论文数:
0
引用数:
0
h-index:
0
机构:
诺基亚中国研究中心
北京大学医学部
胡日勒
.
中文信息学报,
2009,
23
(04)
:22
-26
[2]
基于语义的文本流形研究
[J].
论文数:
引用数:
h-index:
机构:
杨震
;
论文数:
引用数:
h-index:
机构:
范科峰
;
论文数:
引用数:
h-index:
机构:
雷建军
;
论文数:
引用数:
h-index:
机构:
郭军
.
电子学报,
2009,
37
(03)
:557
-561
[3]
基于层次划分的最佳聚类数确定方法
[J].
论文数:
引用数:
h-index:
机构:
陈黎飞
;
论文数:
引用数:
h-index:
机构:
姜青山
;
王声瑞
论文数:
0
引用数:
0
h-index:
0
机构:
Department of Computer Science,University of Sherbooke,JK R,Canada
厦门大学计算机科学系
王声瑞
.
软件学报,
2008,
(01)
:62
-72
[4]
基于改进编辑距离的中文相似句子检索.[J].车万翔;刘挺;秦兵;李生;.高技术通讯.2004, 07
←
1
→
共 4 条
[1]
SMS-2008标注中文短信息库
[J].
论文数:
引用数:
h-index:
机构:
马旭
;
论文数:
引用数:
h-index:
机构:
徐蔚然
;
论文数:
引用数:
h-index:
机构:
郭军
;
胡日勒
论文数:
0
引用数:
0
h-index:
0
机构:
诺基亚中国研究中心
北京大学医学部
胡日勒
.
中文信息学报,
2009,
23
(04)
:22
-26
[2]
基于语义的文本流形研究
[J].
论文数:
引用数:
h-index:
机构:
杨震
;
论文数:
引用数:
h-index:
机构:
范科峰
;
论文数:
引用数:
h-index:
机构:
雷建军
;
论文数:
引用数:
h-index:
机构:
郭军
.
电子学报,
2009,
37
(03)
:557
-561
[3]
基于层次划分的最佳聚类数确定方法
[J].
论文数:
引用数:
h-index:
机构:
陈黎飞
;
论文数:
引用数:
h-index:
机构:
姜青山
;
王声瑞
论文数:
0
引用数:
0
h-index:
0
机构:
Department of Computer Science,University of Sherbooke,JK R,Canada
厦门大学计算机科学系
王声瑞
.
软件学报,
2008,
(01)
:62
-72
[4]
基于改进编辑距离的中文相似句子检索.[J].车万翔;刘挺;秦兵;李生;.高技术通讯.2004, 07
←
1
→