一种基于频繁词集表示的新文本聚类方法

被引:15
作者
张雪松 [1 ]
贾彩燕 [2 ]
机构
[1] 交通数据分析与数据挖掘北京市重点实验室(北京交通大学)
[2] 北京交通大学计算机与信息技术学院
关键词
文本聚类; 频繁词集; 复杂网络; 社区划分; 文本表示模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method,FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FIC算法不仅能降低文本表示的维度,还可以构建文本集中文本间的关联关系,使文本与文本间不再是独立的两两关系.实验中运用2个英文语料库Reuters-21578,20NewsGroup和1个中文语料库——搜狗新闻数据集来测试算法精度.实验表明:较传统的利用文本空间向量模型的聚类方法,该方法能够有效地降低文本表示的维度,并且,相比于常见的基于频繁词集的聚类方法能获得更好的聚类效果.
引用
收藏
页码:102 / 112
页数:11
相关论文
共 7 条
  • [1] 基于频繁项集的海量短文本聚类与主题抽取
    彭敏
    黄佳佳
    朱佳晖
    黄济民
    刘纪平
    [J]. 计算机研究与发展, 2015, 52 (09) : 1941 - 1953
  • [2] 极大熵球面K均值文本聚类分析
    修宇
    王士同
    朱林
    宗成庆
    [J]. 计算机科学与探索, 2007, (03) : 331 - 339
  • [3] 向量空间法中单词权重函数的分析和构造
    陆玉昌
    鲁明羽
    李凡
    周立柱
    [J]. 计算机研究与发展, 2002, (10) : 1205 - 1210
  • [4] A parameter-free community detection method based on centrality and dispersion of nodes in complex networks[J] . Yafang Li,Caiyan Jia,Jian Yu.Physica A: Statistical Mechanics and its Applicat . 2015
  • [5] Text clustering using frequent itemsets
    Zhang, Wen
    Yoshida, Taketoshi
    Tang, Xijin
    Wang, Qing
    [J]. KNOWLEDGE-BASED SYSTEMS, 2010, 23 (05) : 379 - 388
  • [6] A tutorial on spectral clustering
    von Luxburg, Ulrike
    [J]. STATISTICS AND COMPUTING, 2007, 17 (04) : 395 - 416
  • [7] 基于最大频繁词集K-means的文本聚类算法研究及应用. 黄玉燕. 哈尔滨工业大学 . 2011