一种基于逆向匹配算法的中文文本分类技术

被引：3

作者：

刘新

刘任任

机构：

[1] 湘潭大学信息工程学院

来源：

计算机应用 | 2008年 / 04期

关键词：

文本分类; 逆向匹配算法; 增益权值; 主题词表;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

针对中文文本的自动分类问题,提出了一种逆向匹配算法。该算法的基本思路是构造一个带权值的分类主题词表,然后用词表中的关键词在待分类的文档中进行逆向匹配,并统计匹配成功的权值和,以权值和最大者作为分类结果。本算法可以避开中文分词的难点和它对分类结果的影响。理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平。

引用

页码：945 / 947

页数：3

共 4 条

[1] 使用最大熵模型进行中文文本分类 [J].

李荣陆 ;

王建会 ;

陈晓云 ;

陶晓鹏 ;

胡运发 .

计算机研究与发展, 2005, (01) :94-101

[2] 基于字频向量的中文文本自动分类系统 [J].

王梦云 ;

曹素青 .

情报学报, 2000, (06) :644-649

[3]

数据结构[M]. 清华大学出版社 , 严蔚敏, 1987

[4]

Text Categorization with Support Vector Machines:Learning with Many Relevant Features .2 JOACHIMS T. http://www-ai.informatik.uni-dormund.de/ls8-repots.html . 2007

← 1 →