基于关键词语的文本特征选择及权重计算方案

被引：37

作者：

刘里

何中市

机构：

[1] 重庆大学计算机学院

来源：

计算机工程与设计 | 2006年 / 06期

关键词：

文本分类; 向量空间模型; 特征提取; 权重计算; 支持向量机;

D O I：

10.16208/j.issn1000-7024.2006.06.008

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

文本的形式化表示一直是文本分类的重要难题。在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征。提出一种基于关键词语的特征选择及权重计算方案,它利用了文本的结构信息同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了TFIDF的缺陷。通过采用支持向量机(SVM)分类器进行实验,结果显示提出的Score权重计算法比传统TFIDF法的平均分类准确率要高5%左右。

引用

页码：934 / 936

页数：3