基于词内部模式的中文新词识别研究

被引:1
作者
廖祥文 [1 ]
林自芳 [1 ]
陈水利 [2 ]
机构
[1] 福州大学数学与计算机科学学院
[2] 集美大学理学院
关键词
中文新词; 识别; 词内部模式; 字符位置似然概率; 支持向量机;
D O I
10.19715/j.jmuzr.2011.06.012
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
提出了一种基于支持向量机的中文新词识别算法.该算法结合新词内部模式以及词长等提出了基于词内部模式的改进字符位置似然概率,并综合新词的邻接类别等特征对新词进行识别.经过小说语料测试,实验结果表明:该算法的微F1值为0.583 3,宏F1值为0.775 7,分别比不考虑词内部模式的基准算法提高约63%和30%.
引用
收藏
页码:461 / 466
页数:6
相关论文
共 6 条
[1]   网络热点信息发现研究 [J].
曾依灵 ;
许洪波 .
通信学报, 2007, (12) :141-146
[2]   基于多特征的自适应新词识别 [J].
罗智勇 ;
宋柔 .
北京工业大学学报, 2007, (07) :718-725
[3]   一个中文新词识别特征的研究 [J].
秦浩伟 ;
步丰林 .
计算机工程, 2004, (S1) :369-370+414
[4]  
短文本语言计算的关键技术研究.[D].龚才春.中国科学院研究生院(计算技术研究所).2008, 08
[5]  
高性能文本分类算法研究.[D].谭松波.中国科学院研究生院(计算技术研究所).2006, 02
[6]  
中文新词检测与分析.[D].崔世起.中国科学院研究生院(计算技术研究所).2006, 10