基于频繁项集的海量短文本聚类与主题抽取

被引：85

作者：

彭敏 ^{[1
,2
]}

黄佳佳 ^{[1
]}

朱佳晖 ^{[3
]}

黄济民 ^{[1
]}

刘纪平 ^{[1
]}

机构：

[1] 武汉大学计算机学院

[2] 武汉大学深圳研究院

[3] 软件工程国家重点实验室(武汉大学)

来源：

计算机研究与发展 | 2015年 / 09期

关键词：

海量; 短文本; 频繁项集; 聚类; 主题抽取;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE（short text clustering&topic extraction）框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF（similarity-based itemset filtering）,可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSASC（clusters self-adaptive spectral clustering）,实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明,STC-TE框架能够全面

引用

页码：1941 / 1953

页数：13

共 7 条

[1]

微博数据挖掘研究综述 [J].