汉语新词语发现及其词性标注方法研究

被引:0
作者
杨辉
机构
[1] 复旦大学
关键词
新词发现; 词性标注; 自然语言处理; 支持向量机;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
随着经济社会的飞速发展,汉语也得到了丰富与发展,大量汉语新词不断出现在人们生活中。新词语的出现给汉语分词带来更大的挑战。新词的存在使得汉语分词结果中出现过多的“散串”,在很大程度上影响了分词的准确率。因此,新词发现已经成为汉语自动分词中的一个难点与瓶颈问题。如何识别寻找汉语新词成了一个重要的研究课题。词性作为词汇最重要的属性,也是连接词汇到句法的主要桥梁。因此,词性标注是必须为后续自然语言处理过程提供高质量的中间结果,但新词的出现同样在一定程度上降低了词性标注的性能。 目前,许多研究者已提出多种新词发现的方法。但其寻找新词语都是限于领域或限于新词语的词频。本文在分析前人的研究成果基础上,提出一种基于支持向量机的新词发现混合模式,试图综合基于统计的方法和基于规则方法的优点,以吸收了统计方法的快速,保留专家系统的质量。在基于统计的模块中,新词发现过程被看作是一个二类分类问题,已有的新词特征主要考虑新词内部特征信息,文中综合考虑这些特征,并加入上下文特征信息。在统计处理之后,加入了规则过滤,以提高新词发现的准确率。并在此基础之上,进一步对新词语词性标注。 根据本文提出的方法,整个系统分为两个部分,实现了新词语的识别及其词性的标注。 1.在新词发现的算法方面,支持向量机(Support Vector Machine,SVM)被用来处理分类问题。支持向量机已经成功广泛应用于模式识别和分类问题,在高维数据空间中,其可以找到足以区分各类数据点的最优分割超平面。在SVM的框架下,少量人工规则的引入以弥补统计模型的固有不足,提高处理性能。文章详细介绍了用于汉语新词语识别的基于支持向量机的混合算法,及其主要的工作流程。 2.在汉语新词语词性标注方面,文中把这个问题作为一个分类问题,同样采用支持向量机来处理这个问题,综合考虑了候选词的内部构词信息与外部连结信息,最后通过对问题的转换,将一个多类分类问题转换为两类分类问题。 最后,对于1998年人民日报一个月的语料的实验表明,新词发现的准确率达到60.81%,召回率为68.94,F值为64.62%。词性标注的准确率达到90%。
引用
收藏
页数:60
共 14 条
[1]
一种快速获取领域新词语的新方法 [J].
刘华 .
中文信息学报, 2006, (05) :17-23
[2]
一个中文新词识别特征的研究 [J].
秦浩伟 ;
步丰林 .
计算机工程, 2004, (S1) :369-370+414
[3]
面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9
[4]
基于概率统计技术和规则方法的新词发现 [J].
贾自艳 ;
史忠植 .
计算机工程, 2004, (20) :19-21+83
[5]
基于决策树的汉语未登录词识别 [J].
秦文 ;
苑春法 .
中文信息学报, 2004, (01) :14-19
[6]
统计与规则结合的一种新词识别方法 [J].
聂颂 ;
何丕廉 ;
孙越恒 .
微型机与应用, 2003, (10) :58-60
[8]
基于字串内部结合紧密度的汉语自动抽词实验研究 [J].
罗盛芬 ;
孙茂松 .
中文信息学报, 2003, (03) :9-14
[9]
基于最大熵方法的中英文基本名词短语识别 [J].
周雅倩 ;
郭以昆 ;
黄萱菁 ;
吴立德 .
计算机研究与发展, 2003, (03) :440-446
[10]
基于构词法的网络新词自动识别初探 [J].
郑家恒 ;
李文花 .
山西大学学报(自然科学版), 2002, (02) :115-119