基于SVM的词频统计中文分词研究

被引:10
作者
朱小娟
陈特放
机构
[1] 中南大学信息科学与工程学院
关键词
中文分词; 词频统计; 互信息; 支持向量机;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文详细介绍SVM(支持向量机)在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高,并具有一定的稳定性。
引用
收藏
页码:205 / 207
页数:3
相关论文
共 3 条
[1]   SVM在小字符集手写体汉字识别中的应用研究 [J].
朱辉 ;
杨扬 ;
颉斌 ;
封筠 .
微计算机信息, 2004, (04) :74-75+88
[2]   基于SVM的中文组块分析 [J].
李珩 ;
朱靖波 ;
姚天顺 .
中文信息学报, 2004, (02) :1-7
[3]   基于SVM和k-NN结合的汉语交集型歧义切分方法 [J].
李蓉 ;
刘少辉 ;
叶世伟 ;
史忠植 .
中文信息学报, 2001, (06) :13-18