基于隐Markov模型的汉语词类自动标注的实验研究

被引：6

作者：

孙茂松

卢红娜

邹嘉彦

机构：

[1] 清华大学计算机科学与技术系!智能技术与系统国家重点实验室

[2] 北京

[3] 香港城市大学语言资讯科学研究中心!香港

来源：

清华大学学报(自然科学版) | 2000年 / 09期

关键词：

计算语言学; 中文信息处理; 汉语词类自动标注; 隐Markov模型;

D O I：

10.16511/j.cnki.qhdxxb.2000.09.015

中图分类号：

TP391.2 [翻译机];

学科分类号：

081203 ; 0835 ;

摘要：

汉语词类自动标注技术在中文信息处理现实应用中占据着十分重要的位置。论文在经过人工分词和词类标注的大规模汉语语料库的支持下 ,通过一系列对比实验 ,对基于隐 Markov模型的汉语词类自动标注算法进行了系统的考察 ,并得出结论 :1Bigram模型的“性能价格比”较 Tri-gram模型更令人满意 ;2以 7万词次左右的标注语料库训练 Bigram模型即已基本够用 (此时 ,兼类词词类标注正确率及文本词类标注正确率分别可达 93%和 97%以上 ) ;3Bi-gram模型对不同领域具有一定的适应性。这些结论对设计实用型汉语词类自动标注系统具有指导意义。

引用

页码：57 / 60

页数：4

共 7 条

[1]

Part -of -speech tagging with neural networks. Schmid H. In Proceedings of the International Conference on Computational Linguistics . 1994

[2]

Probabilistic part -of -speech tagging using decision trees. Schmid H. In Proceedings of the International Conference on New Methods in Language Processing . 1994

[3]

HMM-based part -of -speech tagging for Chinese corpora. Chang C H,Chen C D. In Proceedings of ACL-93 Workshop on Very Large Corpora . 1993

[4]

Grammatical category disambiguation by statistical optimization. DeRose S J. Computational Linguistics . 1988

[5]

A practical part -of -speech tagger. Cutting D,Kupiec J,Pedersen J,et al. In Proceedings of the 3rd Conference on Applied Natural Language Processing, USA . 1992

[6]

Some advances in transformation-based part -of -speech tagging. Brill E. In Proceedings of the 12th National Conference on Artificial Intelligence . 1994

[7]

A maximum entropy model for part -of -speech tagging. Ratnaparkhi A. In Proceedings of Conference on Empirical Methods in Natural Language Processing . 1996

← 1 →