学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
一种改进的文本特征选择方法的研究与设计
被引:30
作者
:
论文数:
引用数:
h-index:
机构:
许高建
[
1
]
论文数:
引用数:
h-index:
机构:
路遥
[
1
]
论文数:
引用数:
h-index:
机构:
胡学钢
[
2
]
论文数:
引用数:
h-index:
机构:
涂立静
[
1
]
机构
:
[1]
安徽农业大学信息与计算机学院
[2]
合肥工业大学计算机与信息学院
来源
:
苏州大学学报(工科版)
|
2008年
/ 02期
关键词
:
文本挖掘;
信息增益;
互信息;
特征向量;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
特征选择是文本挖掘技术的一个重要环节。在中文分词的基础上,通过设计一个简单的应用程序,对文本进行预处理。然后,在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于信息增益和互信息相结合的特征选择方法。利用它对文本文档进行特征选择,抽取代表其特征的元数据或特征词条构成特征向量,降低噪音。最后通过实验来和其他几种特征选择方法作比较,分析这种方法获取文本特征的精度。
引用
收藏
页码:18 / 22
页数:5
相关论文
共 7 条
[1]
数据挖掘技术.[M].朱玉全; 主编.东南大学出版社.2006,
[2]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[3]
中文文本分类中的特征选择研究
[J].
周茜
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
周茜
;
赵明生
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
赵明生
;
扈旻
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
扈旻
.
中文信息学报,
2004,
(03)
:17
-23
[4]
中文文本分类中特征抽取方法的比较研究
[J].
论文数:
引用数:
h-index:
机构:
代六玲
;
黄河燕
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机科学系
黄河燕
;
陈肇雄
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机科学系
陈肇雄
.
中文信息学报,
2004,
(01)
:26
-32
[5]
Web文本挖掘及特征选择
[J].
景丽萍
论文数:
0
引用数:
0
h-index:
0
机构:
北方交通大学计算机科学与技术学院
景丽萍
;
黄厚宽
论文数:
0
引用数:
0
h-index:
0
机构:
北方交通大学计算机科学与技术学院
黄厚宽
.
电脑与信息技术,
2002,
(01)
:1
-5+64
[6]
关于文本特征抽取新方法的研究
[J].
论文数:
引用数:
h-index:
机构:
李凡
;
论文数:
引用数:
h-index:
机构:
鲁明羽
;
论文数:
引用数:
h-index:
机构:
陆玉昌
.
清华大学学报(自然科学版),
2001,
(07)
:98
-101
[7]
Internet上的文本数据挖掘
[J].
论文数:
引用数:
h-index:
机构:
王伟强
;
论文数:
引用数:
h-index:
机构:
高文
;
论文数:
引用数:
h-index:
机构:
段立娟
.
计算机科学,
2000,
(04)
:32
-36
←
1
→
共 7 条
[1]
数据挖掘技术.[M].朱玉全; 主编.东南大学出版社.2006,
[2]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[3]
中文文本分类中的特征选择研究
[J].
周茜
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
周茜
;
赵明生
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
赵明生
;
扈旻
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
扈旻
.
中文信息学报,
2004,
(03)
:17
-23
[4]
中文文本分类中特征抽取方法的比较研究
[J].
论文数:
引用数:
h-index:
机构:
代六玲
;
黄河燕
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机科学系
黄河燕
;
陈肇雄
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机科学系
陈肇雄
.
中文信息学报,
2004,
(01)
:26
-32
[5]
Web文本挖掘及特征选择
[J].
景丽萍
论文数:
0
引用数:
0
h-index:
0
机构:
北方交通大学计算机科学与技术学院
景丽萍
;
黄厚宽
论文数:
0
引用数:
0
h-index:
0
机构:
北方交通大学计算机科学与技术学院
黄厚宽
.
电脑与信息技术,
2002,
(01)
:1
-5+64
[6]
关于文本特征抽取新方法的研究
[J].
论文数:
引用数:
h-index:
机构:
李凡
;
论文数:
引用数:
h-index:
机构:
鲁明羽
;
论文数:
引用数:
h-index:
机构:
陆玉昌
.
清华大学学报(自然科学版),
2001,
(07)
:98
-101
[7]
Internet上的文本数据挖掘
[J].
论文数:
引用数:
h-index:
机构:
王伟强
;
论文数:
引用数:
h-index:
机构:
高文
;
论文数:
引用数:
h-index:
机构:
段立娟
.
计算机科学,
2000,
(04)
:32
-36
←
1
→