学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种改进的文本特征选择方法的研究与设计
被引:1
作者
:
论文数:
引用数:
h-index:
机构:
许高建
[
1
]
论文数:
引用数:
h-index:
机构:
胡学钢
[
2
]
路遥
论文数:
0
引用数:
0
h-index:
0
机构:
安徽农业大学信息与计算机学院
安徽农业大学信息与计算机学院
路遥
[
1
]
涂立静
论文数:
0
引用数:
0
h-index:
0
机构:
安徽农业大学信息与计算机学院
安徽农业大学信息与计算机学院
涂立静
[
1
]
机构
:
[1]
安徽农业大学信息与计算机学院
[2]
舍肥工业大学计算机与信息学院
来源
:
微型电脑应用
|
2008年
/ 05期
关键词
:
文本挖掘;
信息增益;
互信息;
特征向量;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
特征选择是文本挖掘技术的一个重要的环节。在中文分词的基础上,通过设计一个简单的应用程序,对文本进行预处理。然后,在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于信息增益和互信息相结合的特征选择方法。利用它对文本文档进行特征选择,抽取代表其特征的元数据或特征词条构成特征向量,降低噪音。最后通过实验来和其它几种特征选择方法作比较,分析这种方法获取文本特征的精度。
引用
收藏
页码:21 / 23+4 +4-5
页数:5
相关论文
共 6 条
[1]
中文文本分类中的特征选择研究
周茜
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
周茜
论文数:
引用数:
h-index:
机构:
赵明生
论文数:
引用数:
h-index:
机构:
扈旻
[J].
中文信息学报,
2004,
(03)
: 17
-
23
[2]
中文文本分类中特征抽取方法的比较研究
论文数:
引用数:
h-index:
机构:
代六玲
论文数:
引用数:
h-index:
机构:
黄河燕
论文数:
引用数:
h-index:
机构:
陈肇雄
[J].
中文信息学报,
2004,
(01)
: 26
-
32
[3]
Web文本挖掘及特征选择
景丽萍
论文数:
0
引用数:
0
h-index:
0
机构:
北方交通大学计算机科学与技术学院
景丽萍
黄厚宽
论文数:
0
引用数:
0
h-index:
0
机构:
北方交通大学计算机科学与技术学院
黄厚宽
[J].
电脑与信息技术,
2002,
(01)
: 1
-
5+64
[4]
关于文本特征抽取新方法的研究
李凡
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
李凡
鲁明羽
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
鲁明羽
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
陆玉昌
[J].
清华大学学报(自然科学版),
2001,
(07)
: 98
-
101
[5]
数据挖掘技术[M]. 东南大学出版社 , 朱玉全, 2006
[6]
知识发现[M]. 清华大学出版社 , 史忠植著, 2002
←
1
→
共 6 条
[1]
中文文本分类中的特征选择研究
周茜
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
周茜
论文数:
引用数:
h-index:
机构:
赵明生
论文数:
引用数:
h-index:
机构:
扈旻
[J].
中文信息学报,
2004,
(03)
: 17
-
23
[2]
中文文本分类中特征抽取方法的比较研究
论文数:
引用数:
h-index:
机构:
代六玲
论文数:
引用数:
h-index:
机构:
黄河燕
论文数:
引用数:
h-index:
机构:
陈肇雄
[J].
中文信息学报,
2004,
(01)
: 26
-
32
[3]
Web文本挖掘及特征选择
景丽萍
论文数:
0
引用数:
0
h-index:
0
机构:
北方交通大学计算机科学与技术学院
景丽萍
黄厚宽
论文数:
0
引用数:
0
h-index:
0
机构:
北方交通大学计算机科学与技术学院
黄厚宽
[J].
电脑与信息技术,
2002,
(01)
: 1
-
5+64
[4]
关于文本特征抽取新方法的研究
李凡
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
李凡
鲁明羽
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
鲁明羽
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
陆玉昌
[J].
清华大学学报(自然科学版),
2001,
(07)
: 98
-
101
[5]
数据挖掘技术[M]. 东南大学出版社 , 朱玉全, 2006
[6]
知识发现[M]. 清华大学出版社 , 史忠植著, 2002
←
1
→