一种改进的文本特征选择算法

被引:7
作者
朱颢东 [1 ]
蔡乐才 [1 ]
刘忠英 [2 ]
机构
[1] 四川理工学院
[2] 西华大学
关键词
文本挖掘; 特征选择; 特征向量; 文档;
D O I
10.16652/j.issn.1004-373x.2008.08.027
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
在文本挖掘中,文档通常以特征向量的形式表示。为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,提出一种改进的特征选择算法,该算法对特征进行综合考虑,从而更加准确地选取有效的特征。实验验证了改进算法的可行性和有效性。
引用
收藏
页码:97 / 99+102 +102
页数:4
相关论文
共 6 条
[1]   基于多重启发式规则的中文文本特征值提取方法 [J].
邹娟 ;
周经野 ;
邓成 ;
刘玲 .
计算机工程与科学, 2006, (08) :78-80+104
[2]   使用最大熵模型进行中文文本分类 [J].
李荣陆 ;
王建会 ;
陈晓云 ;
陶晓鹏 ;
胡运发 .
计算机研究与发展, 2005, (01) :94-101
[3]   基于互关联后继树的时间序列相似性查询 [J].
曾海泉 ;
宋扬 ;
申展 ;
胡运发 .
计算机研究与发展, 2004, (02) :325-332
[4]   Web文本挖掘技术研究 [J].
王继成 ;
潘金贵 ;
张福炎 .
计算机研究与发展, 2000, (05) :513-520
[5]   Mining text using keyword distributions [J].
Feldman, R ;
Dagan, I ;
Hirsh, H .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 1998, 10 (03) :281-300
[6]   Bayesian Network Classifiers [J].
Nir Friedman ;
Dan Geiger ;
Moises Goldszmidt .
Machine Learning, 1997, 29 :131-163