基于CRFs和词典信息的中古汉语自动分词

被引：27

作者：

王晓玉

李斌

机构：

[1] 不详

[2] 南京师范大学文学院

[3] 不详

来源：

数据分析与知识发现 | 2017年 / 05期

关键词：

CRFs模型; 分词一致性; 中古汉语; 自动分词;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

【目的】验证中古时期分词一致性和语料类别对CRFs分词效率的影响,在此基础上进一步提高分词效率,降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例,针对中古汉语的自动分词问题,优化分词原则,运用CRFs模型和词典相结合的方法,消除中古汉语人工分词结果中易出现的分词不一致问题;同时在CRFs分词中引入字符分类、字典信息两种特征,并通过对比实验选取每种特征最合适的分词模板。【结果】实验结果显示,分词结果的总F值在封闭测试中达到99%以上,开放测试的综合测试中也达到89%-95%。【局限】分词不一致研究主要针对双字词,因此三字以上词语(多字词)的识别效果稍有欠缺。【结论】在有效提高分词一致性的前提下,字符分类、词典标记特征能够有效提高中古汉语CRFs分词的精确度。同时本文提出的中古汉语分词系统可以服务于中古时期多类别的汉语语料。

引用

页码：62 / 70

页数：9

共 14 条

[1] 中古漢語分詞不一致原因探討[J]. 王曉玉,董志翹.汉语史研究集刊. 2015(00)
[2] 条件随机场与领域本体元素集相结合的未登录词识别研究
段宇锋
朱雯晶
陈巧
刘伟
刘凤红
[J]. 现代图书情报技术, 2015, (04) : 41 - 49
[3] 基于条件随机场与时间词库的中文时间表达式识别
吴琼
黄德根
[J]. 中文信息学报, 2014, (06) : 169 - 174+189
[4] 深加工中古汉语语料库建设的若干问题
化振红
[J]. 西南大学学报(社会科学版), 2014, 40 (03) : 136 - 142+184
[5] 基于CRF的先秦汉语分词标注一体化研究
石民
李斌
陈小荷
[J]. 中文信息学报, 2010, 24 (02) : 39 - 45
[6] 一种基于字词联合解码的中文分词方法
宋彦
蔡东风
张桂平
赵海
[J]. 软件学报, 2009, 20 (09) : 2366 - 2375
[7] 中文分词十年回顾
黄昌宁
赵海
[J]. 中文信息学报, 2007, (03) : 8 - 19
[8] 《资讯处理用中文分词规范》设计理念及规范内容
黄居仁
陈克健
陈凤仪
魏文真
张丽丽
[J]. 语言文字应用, 1997, (01)
[9] 适应于不同领域的中文分词方法研究与实现[D]. 修驰.北京工业大学. 2013
[10] 以《汉书》为例的中古汉语自动分词[D]. 王嘉灵.南京师范大学. 2014

← 1 2 →