中文文本分类研究

被引:6
作者
郝晓燕
常晓明
机构
[1] 太原理工大学计算机与软件学院
关键词
文本分类; k近邻; 支持向量机; 最大熵;
D O I
10.16355/j.cnki.issn1007-9432tyut.2006.06.031
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
使用k近邻、支持向量机和最大熵模型进行中文文本分类的研究,对目前应用较多的k近邻、支持向量机和最大熵模型,分别进行了基于特征词布尔值和基于特征词词频的中文文本分类实验。实验结果显示,在相同的条件下最大熵方法的分类性能最好,支持向量机次之,k近邻稍差。同时发现,在分类过程中引入了词语频率信息时,分类器的性能略有变化,对于最大熵分类准确率下降1%2%,对于k近邻有所上升,对于支持向量机则相当。除去文本的特殊性影响,这表明不同程度的词语的信息对不同的机器学习算法有不同的影响。
引用
收藏
页码:710 / 713
页数:4
相关论文
共 4 条
[1]  
决策树模型和最大熵模型在文本分类中的比较研究[A]. 谷波,刘开瑛.全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C]. 2005
[2]  
统计自然语言处理基础[M]. 电子工业出版社 , (美)ChristopherD.Manning,(德)HinrichSchutze著, 2005
[3]   GENERALIZED ITERATIVE SCALING FOR LOG-LINEAR MODELS [J].
DARROCH, JN ;
RATCLIFF, D .
ANNALS OF MATHEMATICAL STATISTICS, 1972, 43 (05) :1470-&
[4]  
Naive(Bayes) at Forty: The Independence Assumption Information Retrieval. David D Lewis. Proc of the Tenth European Conf on Machine Learning . 1998