基于频繁词集聚类的海量短文分类方法

被引:5
作者
王永恒
贾焰
杨树强
机构
[1] 国防科技大学计算机学院网络研究所
关键词
文本挖掘; 分类; 海量; 短文; 频繁词集;
D O I
10.16208/j.issn1000-7024.2007.08.003
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。针对这个问题提出了一个新颖的基于频繁词集聚类的短文分类算法。该算法使用频繁词集聚类来压缩数据,并使用语义信息进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。
引用
收藏
页码:1744 / 1746+1780 +1780
页数:4
相关论文
共 1 条
[1]   一个基于概念的中文文本分类模型 [J].
苏伟峰 ;
李绍滋 ;
李堂秋 .
计算机工程与应用, 2002, (06) :193-195