大规模文本数据库中的短文分类方法

被引：6

作者：

王永恒

贾焰

杨树强

机构：

[1] 国防科技大学计算机学院网络研究所

来源：

计算机工程与应用 | 2006年 / 22期

关键词：

文本挖掘; 分类; 短文; 大规模文本数据库;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是由于短文中的关键词出现次数少,而且带标签的训练样本又通常数量很少,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。文本提出了一个新颖的短文分类算法。该算法基于文本语义特征图,并使用类似kNN的方法进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。

引用

页码：5 / 7

页数：3