学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于词典和遗传算法的文本特征获取方法
被引:2
作者
:
覃晓
论文数:
0
引用数:
0
h-index:
0
机构:
广西师范学院信息技术系
广西师范学院数学与计算机科学系
广西师范学院信息技术系
覃晓
[
1
,
2
]
元昌安
论文数:
0
引用数:
0
h-index:
0
机构:
广西师范学院信息技术系
广西师范学院信息技术系
元昌安
[
1
]
彭昱忠
论文数:
0
引用数:
0
h-index:
0
机构:
广西师范学院信息技术系
广西师范学院数学与计算机科学系
广西师范学院信息技术系
彭昱忠
[
1
,
2
]
王艳
论文数:
0
引用数:
0
h-index:
0
机构:
广西师范学院信息技术系
广西师范学院信息技术系
王艳
[
1
]
机构
:
[1]
广西师范学院信息技术系
[2]
广西师范学院数学与计算机科学系
来源
:
计算机工程与设计
|
2008年
/ 21期
关键词
:
主题词典;
遗传算法;
VSM;
文本特征提取;
文本分类;
D O I
:
10.16208/j.issn1000-7024.2008.21.077
中图分类号
:
TP18 [人工智能理论];
学科分类号
:
081104 ;
0812 ;
0835 ;
1405 ;
摘要
:
Web文本特征获取是Web挖掘中重要而关键的前提工作,传统文本特征获取方法由于在确定文本词条的权重方面做得不够准确,从而直接影响了文本分类算法的精确度。为此,提出一种基于主题词典和遗传算法的文本特征获取方法(dic-tionary and GA-based feature selection algorithms,DGFSA),利用主题词典来调整词条权重,从而获取文本特征向量。实验结果表明,DGFSA比传统算法在文本分类的准确率和特征词的约简率方面分别提高了28.4%和16.3%。
引用
收藏
页码:5651 / 5654
页数:4
相关论文
共 6 条
[1]
基于领域词典的文本特征表示
陈文亮
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学自然语言处理实验室
陈文亮
朱靖波
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学自然语言处理实验室
朱靖波
论文数:
引用数:
h-index:
机构:
朱慕华
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学自然语言处理实验室
姚天顺
[J].
计算机研究与发展,
2005,
(12)
: 2155
-
2160
[2]
Web文本特征选择算法的研究
冯长远
论文数:
0
引用数:
0
h-index:
0
机构:
河南科技大学电子信息工程学院
冯长远
论文数:
引用数:
h-index:
机构:
普杰信
[J].
计算机应用研究,
2005,
(07)
: 36
-
38+59
[3]
Web文本信息的特征获取算法
论文数:
引用数:
h-index:
机构:
刘明吉
王秀峰
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学计算机与系统科学系
王秀峰
饶一梅
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学计算机与系统科学系
饶一梅
黄亚楼
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学计算机与系统科学系
黄亚楼
[J].
小型微型计算机系统,
2002,
(06)
: 683
-
686
[4]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[5]
数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,
[6]
遗传算法.[M].王小平;曹立明著;.西安交通大学出版社.2002,
←
1
→
共 6 条
[1]
基于领域词典的文本特征表示
陈文亮
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学自然语言处理实验室
陈文亮
朱靖波
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学自然语言处理实验室
朱靖波
论文数:
引用数:
h-index:
机构:
朱慕华
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学自然语言处理实验室
姚天顺
[J].
计算机研究与发展,
2005,
(12)
: 2155
-
2160
[2]
Web文本特征选择算法的研究
冯长远
论文数:
0
引用数:
0
h-index:
0
机构:
河南科技大学电子信息工程学院
冯长远
论文数:
引用数:
h-index:
机构:
普杰信
[J].
计算机应用研究,
2005,
(07)
: 36
-
38+59
[3]
Web文本信息的特征获取算法
论文数:
引用数:
h-index:
机构:
刘明吉
王秀峰
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学计算机与系统科学系
王秀峰
饶一梅
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学计算机与系统科学系
饶一梅
黄亚楼
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学计算机与系统科学系
黄亚楼
[J].
小型微型计算机系统,
2002,
(06)
: 683
-
686
[4]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[5]
数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,
[6]
遗传算法.[M].王小平;曹立明著;.西安交通大学出版社.2002,
←
1
→