基于频繁项集的海量短文本聚类与主题抽取

被引:85
作者
彭敏 [1 ,2 ]
黄佳佳 [1 ]
朱佳晖 [3 ]
黄济民 [1 ]
刘纪平 [1 ]
机构
[1] 武汉大学计算机学院
[2] 武汉大学深圳研究院
[3] 软件工程国家重点实验室(武汉大学)
关键词
海量; 短文本; 频繁项集; 聚类; 主题抽取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering&topic extraction)框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity-based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSASC(clusters self-adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明,STC-TE框架能够全面
引用
收藏
页码:1941 / 1953
页数:13
相关论文
共 7 条
[1]
微博数据挖掘研究综述 [J].
丁兆云 ;
贾焰 ;
周斌 .
计算机研究与发展, 2014, 51 (04) :691-706
[2]
网络大数据:现状与展望 [J].
王元卓 ;
靳小龙 ;
程学旗 .
计算机学报, 2013, 36 (06) :1125-1138
[3]
基于最大频繁项集的搜索引擎查询结果聚类算法 [J].
苏冲 ;
陈清才 ;
王晓龙 ;
孟宪军 .
中文信息学报, 2010, (02) :58-67
[4]
基于主题的中文短信文本分类研究 [J].
刘金岭 .
计算机工程, 2010, 36 (04) :30-32
[5]
一种基于语义内积空间模型的文本聚类算法 [J].
彭京 ;
杨冬青 ;
唐世渭 ;
付艳 ;
蒋汉奎 .
计算机学报, 2007, (08) :1354-1363
[6]
Text clustering using frequent itemsets[J] Wen Zhang;Taketoshi Yoshida;Xijin Tang;Qing Wang Knowledge-Based Systems 2010,
[7]
A tutorial on spectral clustering[J] Ulrike Luxburg Statistics and Computing 2007,