基于SVM的词频统计中文分词研究

被引：10

作者：

朱小娟

陈特放

机构：

[1] 中南大学信息科学与工程学院

来源：

微计算机信息 | 2007年 / 30期

关键词：

中文分词; 词频统计; 互信息; 支持向量机;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

本文详细介绍SVM(支持向量机)在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高,并具有一定的稳定性。

引用

页码：205 / 207

页数：3