共 3 条
基于SVM的词频统计中文分词研究
被引:10
作者:
朱小娟
陈特放
机构:
[1] 中南大学信息科学与工程学院
来源:
关键词:
中文分词;
词频统计;
互信息;
支持向量机;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
本文详细介绍SVM(支持向量机)在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高,并具有一定的稳定性。
引用
收藏
页码:205 / 207
页数:3
相关论文