学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于权值调整的文本分类改进方法
被引:16
作者
:
鲁明羽
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
鲁明羽
李凡
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
李凡
庞淑英
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
庞淑英
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
陆玉昌
论文数:
引用数:
h-index:
机构:
周立柱
机构
:
[1]
清华大学计算机科学与技术系
来源
:
清华大学学报(自然科学版)
|
2003年
/ 04期
关键词
:
文本分类;
权值调整;
VSM;
Bayes分类器;
D O I
:
10.16511/j.cnki.qhdxxb.2003.04.021
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
文本分类是文本挖掘的基础与核心 ,可广泛应用于传统的情报检索和 Web信息的检索与挖掘等。提出了一种利用权值调整思想对向量空间法 (VSM)和朴素 Bayes分类器 (NBC)进行改进的文本分类方法 ,并探讨了利用 EM算法进行无导师 Bayes分类的方法 ,设计和实现了一个中英文文本分类系统 CZW。 3组实验数据表明 ,用某些评估函数调节单词权值可有效提高 VSM和 NBC等文本分类模型的精度 ,并且训练文本规模越大 ,改进的效果越明显。 NBC的分类精度最高可达 86 %。
引用
收藏
页码:513 / 515+520 +520
页数:4
相关论文
共 2 条
[1]
关于文本特征抽取新方法的研究
李凡
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
李凡
鲁明羽
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
鲁明羽
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
陆玉昌
[J].
清华大学学报(自然科学版),
2001,
(07)
: 98
-
101
[2]
An Evaluation of Statistical Approach to Text Classification .2 YANG Yiming. . 1997
←
1
→
共 2 条
[1]
关于文本特征抽取新方法的研究
李凡
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
李凡
鲁明羽
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
鲁明羽
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
陆玉昌
[J].
清华大学学报(自然科学版),
2001,
(07)
: 98
-
101
[2]
An Evaluation of Statistical Approach to Text Classification .2 YANG Yiming. . 1997
←
1
→