基于词典和遗传算法的文本特征获取方法

被引:2
作者
覃晓 [1 ,2 ]
元昌安 [1 ]
彭昱忠 [1 ,2 ]
王艳 [1 ]
机构
[1] 广西师范学院信息技术系
[2] 广西师范学院数学与计算机科学系
关键词
主题词典; 遗传算法; VSM; 文本特征提取; 文本分类;
D O I
10.16208/j.issn1000-7024.2008.21.077
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
Web文本特征获取是Web挖掘中重要而关键的前提工作,传统文本特征获取方法由于在确定文本词条的权重方面做得不够准确,从而直接影响了文本分类算法的精确度。为此,提出一种基于主题词典和遗传算法的文本特征获取方法(dic-tionary and GA-based feature selection algorithms,DGFSA),利用主题词典来调整词条权重,从而获取文本特征向量。实验结果表明,DGFSA比传统算法在文本分类的准确率和特征词的约简率方面分别提高了28.4%和16.3%。
引用
收藏
页码:5651 / 5654
页数:4
相关论文
共 6 条
  • [1] 基于领域词典的文本特征表示
    陈文亮
    朱靖波
    朱慕华
    姚天顺
    [J]. 计算机研究与发展, 2005, (12) : 2155 - 2160
  • [2] Web文本特征选择算法的研究
    冯长远
    普杰信
    [J]. 计算机应用研究, 2005, (07) : 36 - 38+59
  • [3] Web文本信息的特征获取算法
    刘明吉
    王秀峰
    饶一梅
    黄亚楼
    [J]. 小型微型计算机系统, 2002, (06) : 683 - 686
  • [4] A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
  • [5] 数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,
  • [6] 遗传算法.[M].王小平;曹立明著;.西安交通大学出版社.2002,