基于支持向量机和约束条件的新词识别研究

被引:2
作者
徐远方
李成城
机构
[1] 内蒙古师范大学网络技术学院
关键词
新词识别; 支持向量机; 约束条件; 核函数;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
中文分词的关键技术之一在于如何正确切分新词,文中提出了一种新的识别新词的方法。借助支持向量机良好的分类性,首先对借助分词词典进行分词和词性标注过的训练语料中抽取正负样本,然后结合从训练语料中计算出的各种词本身特征进行向量化,通过支持向量机的训练得到新词分类支持向量。对含有模拟新词的测试语料进行分词和词性标注,结合提出的相关约束条件和松弛变量选取候选新词,通过与词本身特征结合进行向量化后作为输入与通过训练得到的支持向量机分类器进行计算,得到的相关结果与阈值进行比较,当结果小于阈值时判定为一个新词,而计算结果大于阈值的词为非新词。通过实验结果比较选取最合适的支持向量机核函数。
引用
收藏
页码:98 / 101
页数:4
相关论文
共 8 条
[1]  
基于大规模语料库的中文新词识别.[D].吕红良.大连理工大学.2008, 08
[2]  
中文新词检测与分析.[D].崔世起.中国科学院研究生院(计算技术研究所).2006, 10
[3]   基于SVM和词间特征的新词识别研究 [J].
徐远方 ;
李成城 .
计算机技术与发展, 2012, 22 (05) :134-136+140
[4]   一种基于多分类SVM的相关反馈图像检索方法 [J].
钱秋银 ;
张正兰 .
计算机技术与发展, 2009, 19 (08) :65-68
[5]   一个中文新词识别特征的研究 [J].
秦浩伟 ;
步丰林 .
计算机工程, 2004, (S1) :369-370+414
[6]   面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9
[7]   机器学习的主要策略综述 [J].
闫友彪 ;
陈元琰 .
计算机应用研究, 2004, (07) :4-10+13
[8]  
Solving propositional satisfiability problems.[J].Robert G. Jeroslow;Jinchang Wang.Annals of Mathematics and Artificial Intelligence.1990, 1