最大熵结合词语聚类的中文词性标注研究

被引：0

作者：

李泽中

机构：

[1] 大连理工大学

关键词：

中文词性标注; 最大熵; 词语聚类; 数据稀疏;

D O I：

暂无

年度学位：

2010

学位类型：

硕士

导师：

黄德根;

摘要：

中文词性标注是中文信息处理领域的一项基础工作,为后续句法分析、组块分析和语义分析等任务的必要前提。文中构建了一个基于最大熵结合中文词语聚类的词性标注器。最大熵的好处在于它可以方便地利用各种丰富的上下文特征,而这些特征可以重叠,它们之间没有任何独立性假设,因此比较合适应用于词性标注领域。在本文的标注方法中,首先利用最大熵模型进行词性标注作为一个基准,然后利用了聚类方法自动地对语料中的词语进行聚类,形成1024个词簇,并把它们作为特征加入到基准模型中,从而有效地缓解了特征的数据稀疏问题；本文采用了最大互信息、基于功能词和高频词3种不同的词语聚类算法,并进行了比较。聚类的无指导性决定了它可以充分利用大量的未标注语料,因而减少了标注器对于人工标注语料的过度依赖。在中文信息学会主办的第一届汉语句法分析评测(CIPS-ParsEval-2009)发布的3M TCT训练语料下的精确率为93.50%,与单独基于最大熵的方法相比有了较大的提高。本文的研究成果可应用于其它自然语言处理任务中。

引用

页数：57

共 21 条

[1]

最大熵方法及其在自然语言处理中的应用 [D].