基于新的关键词提取方法的快速文本分类系统

被引:15
作者
罗杰
陈力
夏德麟
王凯
机构
[1] 武汉大学电子信息学院
关键词
计算机应用; 中文信息处理; 关键词提取; Web文档分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以完成将W eb文档进行快速有效分类的目的。实验表明,该方法在不影响分类准确率的情况下,分类的速度明显提高。
引用
收藏
页码:32 / 34
页数:3
相关论文
共 4 条
[1]   基于内容的中文网页自动分类研究 [J].
张义忠 ;
赵明生 ;
朱精南 .
信息与控制, 2001, (05) :408-412
[2]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[3]   一种用于自动标引系统的主题词自动切分方法 [J].
唐振民,靳从,杨静宇,李远复 .
南京理工大学学报, 1995, (05) :401-404
[4]  
模式识别[M]. 清华大学出版社 , 边肇祺编著, 1988