基于SVM和词间特征的新词识别研究

被引:14
作者
徐远方
李成城
机构
[1] 内蒙古师范大学计算机与信息工程学院
关键词
自然语言处理; 支持向量机; 新词识别; 词间特征;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用。文中结合提出的新词词间模式特征以及各种词内部模式特征,对从训练语料中抽取正负样本进行向量化,通过支持向量机的训练得到新词分类支持向量。对测试语料结合绝对折扣法进行新词候选的提取与筛选,并与训练语料中提取的词间模式特征以及各种词内部模式特征进行向量化,得到新词候选向量,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试,得到最终的新词识别结果。
引用
收藏
页码:134 / 136+140 +140
页数:4
相关论文
共 9 条
[1]
基于单字特征和搜索引擎的新词识别 [J].
苏宁 ;
惠子敬 ;
刘娟 .
武汉大学学报(理学版), 2010, 56 (06) :704-710
[2]
基于自适应中文分词和近似SVM的文本分类算法 [J].
冯永 ;
李华 ;
钟将 ;
叶春晓 .
计算机科学, 2010, 37 (01) :251-254+293
[3]
一种基于多分类SVM的相关反馈图像检索方法 [J].
钱秋银 ;
张正兰 .
计算机技术与发展, 2009, 19 (08) :65-68
[4]
SVM在非平衡数据集中的应用 [J].
黄秀丽 ;
王蔚 .
计算机技术与发展, 2009, 19 (06) :190-193
[5]
智能辅助教学系统中知识点切分歧义消除研究 [J].
李跃民 ;
王浩 ;
赵生慧 ;
计成超 .
计算机技术与发展, 2009, 19 (04) :220-223
[6]
基于多特征的自适应新词识别 [J].
罗智勇 ;
宋柔 .
北京工业大学学报, 2007, (07) :718-725
[7]
基于ADO NET的数据库访问技术研究 [J].
王宝祥 .
计算机应用与软件, 2004, (02) :120-122
[8]
Solving propositional satisfiability problems.[J].Robert G. Jeroslow;Jinchang Wang.Annals of Mathematics and Artificial Intelligence.1990, 1
[9]
ASP.NET数据库系统项目开发实践.[M].曹斌;韩中孝主编;.科学出版社.2005,