最大熵结合词语聚类的中文词性标注研究

被引:0
作者
李泽中
机构
[1] 大连理工大学
关键词
中文词性标注; 最大熵; 词语聚类; 数据稀疏;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
中文词性标注是中文信息处理领域的一项基础工作,为后续句法分析、组块分析和语义分析等任务的必要前提。文中构建了一个基于最大熵结合中文词语聚类的词性标注器。 最大熵的好处在于它可以方便地利用各种丰富的上下文特征,而这些特征可以重叠,它们之间没有任何独立性假设,因此比较合适应用于词性标注领域。在本文的标注方法中,首先利用最大熵模型进行词性标注作为一个基准,然后利用了聚类方法自动地对语料中的词语进行聚类,形成1024个词簇,并把它们作为特征加入到基准模型中,从而有效地缓解了特征的数据稀疏问题;本文采用了最大互信息、基于功能词和高频词3种不同的词语聚类算法,并进行了比较。聚类的无指导性决定了它可以充分利用大量的未标注语料,因而减少了标注器对于人工标注语料的过度依赖。在中文信息学会主办的第一届汉语句法分析评测(CIPS-ParsEval-2009)发布的3M TCT训练语料下的精确率为93.50%,与单独基于最大熵的方法相比有了较大的提高。 本文的研究成果可应用于其它自然语言处理任务中。
引用
收藏
页数:57
共 21 条
[1]
最大熵方法及其在自然语言处理中的应用 [D]. 
周雅倩 .
复旦大学,
2005
[2]
统计自然语言处理基础.[M].(美)ChristopherD.Manning;(德)HinrichSchutze著;苑春法等译;.电子工业出版社.2005,
[3]
计算语言学基础.[M].冯志伟著;.商务印书馆.2001,
[4]
基于最大熵的汉语词性标注 [D]. 
孔海霞 .
大连理工大学,
2007
[5]
The study of a nonstationary maximum entropy Markov model and its application on the pos-tagging task [J].
Xiao, Jinghui ;
Wang, Xiaolong ;
Liu, Bingquan .
ACM Transactions on Asian Language Information Processing, 2007, 6 (02)
[6]
GENERALIZED ITERATIVE SCALING FOR LOG-LINEAR MODELS [J].
DARROCH, JN ;
RATCLIFF, D .
ANNALS OF MATHEMATICAL STATISTICS, 1972, 43 (05) :1470-&
[7]
基于实例的中文分词-词性标注方法的应用研究 [J].
姜涛 ;
姚天顺 ;
张俐 .
小型微型计算机系统, 2007, (11) :2090-2093
[8]
一种用于词性标注的相关投票融合策略 [J].
郭永辉 ;
吴保民 ;
王炳锡 .
中文信息学报, 2007, (02) :9-13
[9]
基于条件随机场(CRFs)的中文词性标注方法 [J].
洪铭材 ;
张阔 ;
唐杰 ;
李涓子 .
计算机科学, 2006, (10) :148-151+155
[10]
基于条件随机场的汉语分词系统 [J].
李双龙 ;
刘群 ;
王成耀 .
微计算机信息, 2006, (28) :178-180