基于统计语言模型的汉语浅层分析研究

被引:0
作者
高红
机构
[1] 大连理工大学
关键词
统计语言模型; 汉语浅层分析; 新词识别; 命名实体识别; 组块分析;
D O I
暂无
年度学位
2007
学位类型
博士
摘要
句法分析是自然语言处理中的重点和难点。针对完整的句法分析在处理大规模真实文本中遇到的困难,许多研究人员尝试着把一个完整的句法分析问题分解为若干个子问题,以逐步降低完整句法分析的难度,提高分析效率。浅层分析就是在这样的发展趋势下出现的一种新的语言处理策略。它致力于识别句子中某些结构相对简单、但在句子组成中意义重要的成分,从而简化句子结构,为句子更深层次的分析提供基础。浅层分析不仅对需要完全句法分析的机器翻译有重要的作用,而且在一些不需要完全句法分析的自然语言处理任务中也有广泛应用,如词典编纂、信息提取、文本分类、文摘生成和问答系统等领域。 随着在语料库基础上发展起来的经验主义方法在自然语言处理中的广泛应用,统计语言模型已经成为当前各项自然语言处理任务中的主流技术。本文在统计方法的基础上对汉语浅层分析进行了研究,主要包括:新词识别,命名实体识别和组块分析。 提出了互信息与串频统计相结合的新词识别方法。识别的新词主要指未登录词中的非命名实体。将单字、单字词及其相邻的多字词列入新词的候选成分,计算候选成分之间的互信息时,融合了成词可信度信息和词长信息,并将串频统计信息加入到可能包含新词的候选字段对应的互信息向量中。该方法可以识别由多字词与单字或多字词与单字词组成的新词,取得了较好的新词识别结果。 命名实体是一种很重要的未登录词。未登录词的存在会造成自动分词的错误,分词错误又会反过来影响未登录词的识别。针对自动分词与命名实体识别之间存在互相影响的矛盾问题,提出了一种基于有向图语言模型的与分词一体化的命名实体识别方法。将普通候选词和命名实体候选词映射为有向图节点,将候选词之间的接续关系映射为有向边。利用N-gram模型为有向边赋以合适的权值,使句子最好的分词方式尽可能对应有向图的最短路径。该一体化方法提高了命名实体识别的精度。 给出了双规则AdaBoost(DR-AdaBoost)分类算法并将其成功应用于汉语组块分析。DR-AdaBoost算法在每次迭代中将双规则(最优弱分类规则和次优弱分类规则)线性组合作为评价标准.在UCI数据集和CoNLL-2000共享数据集(英语组块分析)上的测试结果表明、该算法与AdaBoost算法相比,收敛速度快且分类精度高。在汉语组块分析任务中,DR-AdaBoost算法提高了组块分析的精度。DR-AdaBoost算法还可以应用于其它自然语言处理任务或其它分类问题中。
引用
收藏
页数:124
共 82 条
[1]
基于SVM的组块识别及其错误驱动学习方法 [J].
黄德根 ;
王莹莹 .
中文信息学报, 2006, (06) :17-24
[2]
基于条件随机域的复杂最长名词短语识别 [J].
冯冲 ;
陈肇雄 ;
黄河燕 ;
张亮 ;
王江伟 .
小型微型计算机系统, 2006, (06) :1134-1139
[3]
基于大规模语料库的新词检测 [J].
崔世起 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 .
计算机研究与发展 , 2006, (05) :927-932
[4]
基于Multigram语言模型的主动学习中文分词 [J].
冯冲 ;
陈肇雄 ;
黄河燕 ;
关真珍 .
中文信息学报, 2006, (01) :50-58
[5]
汉语介词短语的自动识别 [J].
干俊伟 ;
黄德根 .
中文信息学报, 2005, (04) :17-23
[6]
Co-training机器学习方法在中文组块识别中的应用 [J].
刘世岳 ;
李珩 ;
张俐 ;
姚天顺 .
中文信息学报, 2005, (03) :73-79
[7]
现代汉语介词短语边界识别研究 [J].
王立霞 ;
孙宏林 .
中文信息学报, 2005, (03) :80-86
[8]
一种基于可信度的人名识别方法 [J].
罗智勇 ;
宋柔 .
中文信息学报, 2005, (03) :67-72+86
[9]
基于Stacking算法的组合分类器及其应用于中文组块分析 [J].
李珩 ;
朱靖波 ;
姚天顺 .
计算机研究与发展, 2005, (05) :844-848
[10]
运用改进的分词方法进行外国译名识别的研究 [J].
方华 ;
王振华 ;
陆汝占 ;
刘绍明 .
计算机仿真, 2005, (03) :217-220