学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
中文文本自动分类的研究
被引:0
作者
:
论文数:
引用数:
h-index:
机构:
孙丽华
机构
:
[1]
哈尔滨工程大学
关键词
:
中文信息处理;
中文文本自动分类;
贝叶斯分类器;
K近邻分类器;
支持向量机;
D O I
:
暂无
年度学位
:
2002
学位类型
:
硕士
导师
:
张积东;
摘要
:
本文较系统地综述了中文文本分类中自动分词技术、特征提取技术、文本分类模型和性能评估技术的研究现状和研究方法。较全面地讨论了贝叶斯方法、k近邻方法和支持向量机等三种中文文本分类方法。作者采用三个模型,实现了朴素贝叶斯分类器、k近邻分类器和支持向量机分类器三个中文文本分类器,集成了一个实用性较强的实验系统。 深入地分析了k近邻方法的不足,提出了改进的k近邻方法,提高了分类器的性能。 重点讨论了支持向量机的相关问题。概述了统计学习理论的主要内容,推导了支持向量机方法在文本线性可分、线性不可分和非线性可分情况下实现分类的数学公式,将学习问题转化为一个在等式约束和不等式约束下的凸二次优化问题,总结了求解的过程。针对超大规模文本库的训练与评估问题,采用分解算法,迭代求解,然后利用基于Leave-One-Out技术的ξα评估方法快速有效地计算错误率、准确率、召回率和F1指标。证明了分解算法的有效性,在实验系统中采取了五种加速训练的措施。采用组合结构实现N个类别的支持向量机多分类器。针对支持向量机多类器中存在的文本漏识问题,采取kNN方法和特征匹配方法进行后处理,对失效文本实施二次分类,改善了多分类器的性能。 实验表明,三种分类器都适合于中文文本分类的需要,其中支持向量机分类器的分类结果稳定,精度高,性能最好。而将k近邻方法和特征匹配方法与支持向量机相结合形成的支持向量机多分类器更加适用于中文文本分类的需要。
引用
收藏
页数:80
共 11 条
[1]
支持向量机的理论基础——统计学习理论
[J].
论文数:
引用数:
h-index:
机构:
王国胜
;
论文数:
引用数:
h-index:
机构:
钟义信
.
计算机工程与应用,
2001,
(19)
:19
-20+31
[2]
支持向量机在大类别数分类中的应用
[J].
论文数:
引用数:
h-index:
机构:
王建芬
;
曹元大
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系!北京,北京理工大学计算机科学与工程系!北京
曹元大
.
北京理工大学学报,
2001,
(02)
:225
-228
[3]
PCCS部分聚类分类:一种快速的Web文档聚类方法
[J].
王爱华
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系!北京
王爱华
;
张铭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系!北京
张铭
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系!北京
不详
.
计算机研究与发展 ,
2001,
(04)
:415
-421
[4]
独立于语种的文本分类方法
[J].
论文数:
引用数:
h-index:
机构:
黄萱菁
;
论文数:
引用数:
h-index:
机构:
吴立德
;
石崎洋之
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
石崎洋之
;
徐国伟
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
徐国伟
.
中文信息学报,
2000,
(06)
:1
-7
[5]
自动分类研究进展
[J].
论文数:
引用数:
h-index:
机构:
肖明
;
论文数:
引用数:
h-index:
机构:
沈英
.
现代图书情报技术,
2000,
(05)
:25
-28
[6]
一种大类别数分类的神经网络方法
[J].
论文数:
引用数:
h-index:
机构:
岳喜才
;
论文数:
引用数:
h-index:
机构:
伍晓宇
;
郑崇勋
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电机系!北京
郑崇勋
;
叶大田
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电机系!北京
叶大田
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电机系!北京
不详
.
计算机研究与发展 ,
2000,
(03)
:278
-283
[7]
关于统计学习理论与支持向量机
[J].
论文数:
引用数:
h-index:
机构:
张学工
.
自动化学报,
2000,
(01)
[8]
自动分类研究现状与展望
[J].
论文数:
引用数:
h-index:
机构:
成颖
;
史九林
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学信息管理系
史九林
.
情报学报,
1999,
(01)
[9]
Text classification from labeled and unlabeled documents using EM
[J].
Nigam, K
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Nigam, K
;
McCallum, AK
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
McCallum, AK
;
Thrun, S
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Thrun, S
;
Mitchell, T
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Mitchell, T
.
MACHINE LEARNING,
2000,
39
(2-3)
:103
-134
[10]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,
←
1
2
→
共 11 条
[1]
支持向量机的理论基础——统计学习理论
[J].
论文数:
引用数:
h-index:
机构:
王国胜
;
论文数:
引用数:
h-index:
机构:
钟义信
.
计算机工程与应用,
2001,
(19)
:19
-20+31
[2]
支持向量机在大类别数分类中的应用
[J].
论文数:
引用数:
h-index:
机构:
王建芬
;
曹元大
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系!北京,北京理工大学计算机科学与工程系!北京
曹元大
.
北京理工大学学报,
2001,
(02)
:225
-228
[3]
PCCS部分聚类分类:一种快速的Web文档聚类方法
[J].
王爱华
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系!北京
王爱华
;
张铭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系!北京
张铭
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系!北京
不详
.
计算机研究与发展 ,
2001,
(04)
:415
-421
[4]
独立于语种的文本分类方法
[J].
论文数:
引用数:
h-index:
机构:
黄萱菁
;
论文数:
引用数:
h-index:
机构:
吴立德
;
石崎洋之
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
石崎洋之
;
徐国伟
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
徐国伟
.
中文信息学报,
2000,
(06)
:1
-7
[5]
自动分类研究进展
[J].
论文数:
引用数:
h-index:
机构:
肖明
;
论文数:
引用数:
h-index:
机构:
沈英
.
现代图书情报技术,
2000,
(05)
:25
-28
[6]
一种大类别数分类的神经网络方法
[J].
论文数:
引用数:
h-index:
机构:
岳喜才
;
论文数:
引用数:
h-index:
机构:
伍晓宇
;
郑崇勋
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电机系!北京
郑崇勋
;
叶大田
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电机系!北京
叶大田
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电机系!北京
不详
.
计算机研究与发展 ,
2000,
(03)
:278
-283
[7]
关于统计学习理论与支持向量机
[J].
论文数:
引用数:
h-index:
机构:
张学工
.
自动化学报,
2000,
(01)
[8]
自动分类研究现状与展望
[J].
论文数:
引用数:
h-index:
机构:
成颖
;
史九林
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学信息管理系
史九林
.
情报学报,
1999,
(01)
[9]
Text classification from labeled and unlabeled documents using EM
[J].
Nigam, K
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Nigam, K
;
McCallum, AK
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
McCallum, AK
;
Thrun, S
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Thrun, S
;
Mitchell, T
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Mitchell, T
.
MACHINE LEARNING,
2000,
39
(2-3)
:103
-134
[10]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,
←
1
2
→