一种基于逆向匹配算法的中文文本分类技术

被引:3
作者
刘新
刘任任
机构
[1] 湘潭大学信息工程学院
关键词
文本分类; 逆向匹配算法; 增益权值; 主题词表;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对中文文本的自动分类问题,提出了一种逆向匹配算法。该算法的基本思路是构造一个带权值的分类主题词表,然后用词表中的关键词在待分类的文档中进行逆向匹配,并统计匹配成功的权值和,以权值和最大者作为分类结果。本算法可以避开中文分词的难点和它对分类结果的影响。理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平。
引用
收藏
页码:945 / 947
页数:3
相关论文
共 4 条
[1]   使用最大熵模型进行中文文本分类 [J].
李荣陆 ;
王建会 ;
陈晓云 ;
陶晓鹏 ;
胡运发 .
计算机研究与发展, 2005, (01) :94-101
[2]   基于字频向量的中文文本自动分类系统 [J].
王梦云 ;
曹素青 .
情报学报, 2000, (06) :644-649
[3]  
数据结构[M]. 清华大学出版社 , 严蔚敏, 1987
[4]  
Text Categorization with Support Vector Machines:Learning with Many Relevant Features .2 JOACHIMS T. http://www-ai.informatik.uni-dormund.de/ls8-repots.html . 2007