多维领域知识下的《诗经》自动分词研究

被引:13
作者
王姗姗
王东波
黄水清
何琳
机构
[1] 南京农业大学
关键词
《毛诗引得》; 《诗经》; 条件随机场模型; 特征模板模型后处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
《诗经》位居古文经学派"五经"之首,蕴含丰富。随着人文计算的广泛应用,本文结合《汉学引得丛刊》中《毛诗引得》的领域知识,采用机器学习的方法研究《诗经》的自动分词。基于《诗经》手工分词的语料,采用《广韵》字表和统计分析相结合的方法,得到23组融合不同特征知识的特征模板,训练产生机器学习分词模型。对每个分词模型进行性能测试,分析发现词性特征对《诗经》分词效果的影响最大,且分词模型的调和平均值F值最高可达到97.42%。最后,采用《毛诗引得》领域词表对测试性能最佳的分词模型进行长词校正的模型后处理,得到了融合《毛诗引得》专家词汇知识的《诗经》分词语料。本文融入多维领域知识实现《诗经》自动分词的研究模式不仅对先秦诗歌体的相关研究起借鉴意义,而且对先秦典籍的自动分词研究具有启发性,《诗经》分词语料作为先秦典籍语料库的一部分,对进一步实现先秦典籍的知识挖掘有较强的辅助作用。
引用
收藏
页码:183 / 193
页数:11
相关论文
empty
未找到相关数据