上古汉语分词及词性标注语料库的构建——以《淮南子》为范例

被引：22

作者：

留金腾 ^{[1
,2
]}

宋彦 ^{[1
]}

夏飞 ^{[3
]}

机构：

[1] 香港城市大学中文翻译及语言学系

[2] 香港理工大学香港专上学院

[3] 华盛顿大学语言学系

来源：

中文信息学报 | 2013年 / 27卷 / 06期

关键词：

上古汉语语料库; 分词; 词性标注; 领域适应;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

该文介绍了以《淮南子》为文本的上古汉语分词及词性标注语料库及其构建过程。该文采取了自动分词与词性标注并结合人工校正的方法构建该语料库,其中自动过程使用领域适应方法优化标注模型,在分词和词性标注上均显著提升了标注性能。分析了上古汉语的词汇特点,并以此为基础描述了一些显式的词汇形态特征,将其运用于我们的自动分词及词性标注中,特别对词性标注系统带来了有效帮助。总结并分析了自动分词和词性标注中出现的错误,最后描述了整个语料库的词汇和词性分布特点。提出的方法在《淮南子》的标注过程中得到了验证,为日后扩展到其他古汉语资源提供了参考。同时,基于该文工作得到的《淮南子》语料库也为日后的古汉语研究提供了有益的资源。

引用

页码：6 / 15+81 +81

页数：11

共 7 条

[1] 基于SVMTool的中文词性标注
王丽杰
车万翔
刘挺
[J]. 中文信息学报, 2009, (04) : 16 - 21
[2] 汉语句法树库标注体系
周强
[J]. 中文信息学报, 2004, (04) : 1 - 8
[3] 东汉语料与词汇史研究刍议
方一新
[J]. 中国语文, 1996, (02) : 140 - 144
[4] 古代汉语语法学[M]. 商务印书馆 , 李佐丰著, 2004
[5] 两汉汉语研究[M]. 山东教育出版社 , 程湘清主编, 1992
[6] 汉语史稿[M]. 中华书局 , 王力著, 1980
[7] Integrating unsupervised and supervised word segmentation: The role of goodness measures[J] . Hai Zhao,Chunyu Kit.Information Sciences . 2010 (1)

← 1 →