基于语境和停用词驱动的中文自动分词研究

被引:0
作者
江兆中
机构
[1] 合肥工业大学
关键词
中文信息处理; 中文分词; 未登录词识别; 停用词; 语境;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
随着国民经济信息化的不断发展以及Internet的普及应用,中文信息处理成为一种热门的研究领域。因此,对中文自动分词技术的要求也越来越高,成为中文信息处理的一个前沿课题。 未登录词对分词精度的影响超过歧义切分,因而成为提高中文分词质量的关键。语境和停用词中隐含着有助于未登录词识别的信息,合理利用能提高识别的质量。为此,本文针对以上关键问题进行研究,主要工作如下: (1)提出一种基于语境的中文分词模型。以往的分词算法大多只考虑语料信息或语境信息,这样会产生局部概率偏见问题。理论分析及实验表明综合考虑语料信息和语境信息可有效提高分词的质量。 (2)提出一种基于停用词驱动的未登录词识别方法ROWS。以往大多方法基于停用词干扰未登录词识别这一理念,将其去除后再进行处理。只有很少方法利用规则对停用词进行了后处理,这种在切分结束后对其进行处理不但代价大而且效果不明显。基于此,在结合语料信息和语境信息或上下文信息的同时,对停用词进行建模,减少了局部概率偏见的影响,有效提高未登录词识别的质量。
引用
收藏
页数:50
共 40 条
[1]
中文自动分词系统的研究 [D]. 
朱珣 .
华中师范大学,
2004
[2]
Stop word location and identification for adaptive text recognition [J].
Ho T.K. .
International Journal on Document Analysis and Recognition, 2000, 3 (1) :16-26
[3]
基于词典和词频的中文分词方法 [J].
张恒 ;
杨文昭 ;
屈景辉 ;
卢虹冰 ;
张亮 ;
赵飞 .
微计算机信息, 2008, (03) :239-240+232
[4]
基于SVM的词频统计中文分词研究 [J].
朱小娟 ;
陈特放 .
微计算机信息, 2007, (30) :205-207
[5]
基于有效子串标注的中文分词 [J].
赵海 ;
揭春雨 .
中文信息学报, 2007, (05) :8-13
[6]
词频统计中文分词技术的研究 [J].
朱小娟 ;
陈特放 .
仪器仪表用户, 2007, (03) :78-79
[7]
中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[8]
信息检索用户查询语句的停用词过滤 [J].
熊文新 ;
宋柔 .
计算机工程, 2007, (06) :195-197
[9]
基于条件随机场的汉语分词系统 [J].
李双龙 ;
刘群 ;
王成耀 .
微计算机信息, 2006, (28) :178-180
[10]
基于规则与统计相结合的中文文本自动查错模型与算法 [J].
张仰森 ;
曹元大 ;
俞士汶 .
中文信息学报, 2006, (04) :1-7+55