短文本聚类及聚类结果描述方法研究

被引:0
作者
邵洪雨
机构
[1] 大连理工大学
关键词
短文本聚类; 两阶段聚类; 类簇描述; 短文本排序;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
Web2.0技术和移动互联网技术的高速发展催生了大量新型的互联网应用,如交互式问答系统、微信、微博等。这些互联网应用产生了大量的短文本信息并且改变了当前互联网信息展现形式。短文本与传统的篇章型网页有很大的不同,短文本表达简洁,用词不规范,大量使用流行语、网络词并且增长迅速。短文本的这些特点使得针对长文本的传统文本聚类方法不再适用,因此,发展针对于短文本的聚类算法对获取短文本中蕴含的丰富信息具有重大意义。 本论文对文本信息聚类的关键技术进行了深入的探讨,在分析了短文本的特点后,提出针对短文本的聚类方法和聚类结果描述方法,论文的主要研究内容如下: 首先,本文提出了一种两阶段的短文本聚类方法。该方法为了有效的解决短文本动态增长以及数据量巨大的问题,采用了分而治之的策略。首先,本文设定一个合理的窗口大小,使其在动态增长的短文本上依次滑动,对窗口内的短文本采用传统的层次聚类方法进行聚类,得到小的类簇,称之为微簇。接着,本文采用基于信息熵的方法对不同窗口间得到的微簇进行归并,并且在归并的过程中进行两点处理:第一、在多次归并过程中没有改变的类簇,如果其中包含的短文本个数较少,则认为该类簇所包含的短文本构成孤立点和异常点,对其进行删除操作;第二、对剩余的类簇计算稳定度,如果稳定度到达一定值,本文认为该类簇进入一个稳定态,从类簇集合中拿出保存为最终结果。 其次,本文提出了一种短文本聚类结果描述方法。该方法从两个角度对类簇进行描述:第一、本文采用基于PageRank的短文本排序算法对类簇中的短文本进行排序,选择最具代表性的前k个短文本作为类簇代表;第二、对得到的k个短文本进行词汇权重计算,选取若干词汇作为类簇标签。一方面,类簇短文本代表可以增强类簇的易读性;另一方面,类簇标签可以作为类簇的标识,起到类似于标题的作用。 最后,本文构建微博原型系统,并把本文提出的短文本聚类算法和类簇描述方法应用于其中,以检验算法在实践中的效果。在微博系统中加入微博聚类模块和微博类簇描述模块,从而获取微博系统中的热点话题。 通过对短文本聚类方法的研究,有助于开拓Web2.0和移动互联网背景下的信息组织形式,对主题发现与跟踪、互联网信息监管、舆论引导等产生积极的促进作用。
引用
收藏
页数:61
共 27 条
[1]
面向用户生成内容的短文本聚类算法研究 [J].
赵辉 ;
刘怀亮 .
现代图书情报技术, 2013, (09) :88-92
[2]
基于增量型聚类的自动话题检测研究 [J].
张小明 ;
李舟军 ;
巢文涵 .
软件学报, 2012, 23 (06) :1578-1587
[3]
概念属性扩展的短文本聚类算法 [J].
白秋产 ;
金春霞 .
长春师范学院学报, 2011, 30 (10) :29-33
[4]
大规模短文本的不完全聚类 [J].
彭泽映 ;
俞晓明 ;
许洪波 ;
刘春阳 .
中文信息学报, 2011, 25 (01) :54-59
[5]
基于主题分割与PageRank算法的文本主题抽取 [J].
段晓丽 ;
王宇 .
现代图书情报技术, 2010, (12) :34-39
[6]
基于字符串相似性聚类的网络短文本舆情热点发现技术 [J].
杨震 ;
段立娟 ;
赖英旭 .
北京工业大学学报, 2010, 36 (05) :669-673
[7]
一种基于密度和网格的高效聚类算法(英文) [J].
刘章雄 ;
刘宴兵 ;
罗来明 .
重庆邮电大学学报(自然科学版), 2010, (02) :242-247
[8]
基于免疫的中文网络短文本聚类算法.[J].贺涛;曹先彬;谭辉;.自动化学报.2009, 07
[9]
基于概念的文本表示模型 [J].
陈龙 ;
范瑞霞 ;
高琪 .
计算机工程与应用, 2008, (20) :162-164
[10]
面向变异短文本的快速聚类算法 [J].
黄永光 ;
刘挺 ;
车万翔 ;
胡晓光 .
中文信息学报, 2007, (02) :63-68