学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
向量空间法中单词权重函数的分析和构造
被引:116
作者
:
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
陆玉昌
鲁明羽
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
鲁明羽
李凡
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
李凡
论文数:
引用数:
h-index:
机构:
周立柱
机构
:
[1]
清华大学计算机科学与技术系
来源
:
计算机研究与发展
|
2002年
/ 10期
关键词
:
向量空间模型;
权重调整;
文本分类;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
文本分类是文本挖掘的基础与核心 ,是近年来数据挖掘和网络挖掘的一个研究热点 ,在传统的情报检索、网站索引体系结构的建立和 Web信息检索等方面占有重要地位 .深入分析了一种简单而常用的经典文本分类模型——向量空间模型 ( vector space model,VSM)——的实质 ,找出了其分类精度低的原因 ,提出了一种利用特征筛选中的评估函数代替 IDF函数进行权值调整的方法 ,并对采用各种不同评估函数进行权值调整的性能进行了理论分析和实验比较 ,提出了一种构造新的高性能评估函数的新颖方法 .
引用
收藏
页码:1205 / 1210
页数:6
相关论文
共 2 条
[1]
关于文本特征抽取新方法的研究
李凡
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
李凡
鲁明羽
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
鲁明羽
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
陆玉昌
[J].
清华大学学报(自然科学版),
2001,
(07)
: 98
-
101
[2]
高等数理统计[M]. 施普林格出版社 , 茆诗松等编著, 1998
←
1
→
共 2 条
[1]
关于文本特征抽取新方法的研究
李凡
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
李凡
鲁明羽
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
鲁明羽
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
陆玉昌
[J].
清华大学学报(自然科学版),
2001,
(07)
: 98
-
101
[2]
高等数理统计[M]. 施普林格出版社 , 茆诗松等编著, 1998
←
1
→