学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种实用高效的文本分类算法
被引:18
作者
:
王建会
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系 上海 , 上海
王建会
王洪伟
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系 上海 , 上海
王洪伟
申展
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系 上海 , 上海
申展
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系 上海 , 上海
胡运发
机构
:
[1]
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系 上海 , 上海
[2]
同济大学经济与管理学院 上海 , 上海 , 上海
来源
:
计算机研究与发展
|
2005年
/ 01期
关键词
:
分类;
等效半径;
向量空间;
互依赖;
SECTILE;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
在模式识别研究领域已有的分类算法中,大多数都是基于向量空间模型的算法,其中使用范围最广的是kNN算法.但是,其中的大多数算法都因为计算复杂度太高而不适用于大规模的场合.而且,当训练样本集增大时都需要重新生成分类器,可扩展性差.为此,提出了互依赖和等效半径的概念,并将两者相结合,提出新的分类算法--基于互依赖和等效半径、易更新的分类算法SECTILE.SECTILE计算复杂度较低,而且扩展性能较好,适用于大规模场合.将SECTILE算法应用于中文文本分类,并与kNN算法和类中心向量法进行比较,结果表明,在提高分类精度的同时,SECTILE还可以大幅度提高分类速度,有利于对大规模信息样本进行实时在线的自动分类.
引用
收藏
页码:85 / 93
页数:9
相关论文
共 2 条
[1]
BoosTexter: A Boosting-based System for Text Categorization[J] . Robert E. Schapire,Yoram Singer.Machine Learning . 2000 (2-3)
[2]
A tutorial on Support Vector Machines for pattern recognition
[J].
Burges, CJC
论文数:
0
引用数:
0
h-index:
0
机构:
Lucent Technol, Bell Labs, Murray Hill, NJ 07974 USA
Lucent Technol, Bell Labs, Murray Hill, NJ 07974 USA
Burges, CJC
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(02)
:121
-167
←
1
→
共 2 条
[1]
BoosTexter: A Boosting-based System for Text Categorization[J] . Robert E. Schapire,Yoram Singer.Machine Learning . 2000 (2-3)
[2]
A tutorial on Support Vector Machines for pattern recognition
[J].
Burges, CJC
论文数:
0
引用数:
0
h-index:
0
机构:
Lucent Technol, Bell Labs, Murray Hill, NJ 07974 USA
Lucent Technol, Bell Labs, Murray Hill, NJ 07974 USA
Burges, CJC
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(02)
:121
-167
←
1
→