条件随机场图模型在《明史》词性标注研究中的应用效果探索

被引:9
作者
朱晓
金力
机构
[1] 复旦大学生命科学学院
关键词
《明史》; 编年体; 词性标注; 条件随机场; 图模型;
D O I
10.15943/j.cnki.fdxb-jns.2014.03.001
中图分类号
K248 [明(1368~1663年)];
学科分类号
0602 ;
摘要
自然语言处理作为人工智能领域的一个重要分支,随着计算机信息处理技术的发展,已经取得较大进展.但是古汉语信息处理研究却相对滞后.本研究选择编年体体裁的《明史》作为研究语料,通过交叉检验方法比较了基于条件随机场的三种图模型(无边图模型、完全图模型以及嵌套图模型)在古汉语词性标注中的应用,发现完全图模型和嵌套图模型在《明史》的词性标注中的效果优于无边图模型,分词(Word Segmentation)在一定程度上可以提高古汉语词性标注的效率.另外,还发现基于条件随机场的图模型在分词前后对测试集中未登录词的词性标注效果均比较低.
引用
收藏
页码:297 / 304
页数:8
相关论文
共 7 条
[1]  
Natural language processing.[J].Gobinda G. Chowdhury.Annual Review of Information Science and Technology.2003, 1
[2]   基于MapReduce的中文词性标注CRF模型并行化训练研究 [J].
刘滔 ;
雷霖 ;
陈荦 ;
熊伟 .
北京大学学报(自然科学版), 2013, 49 (01) :147-152
[3]   基于条件随机场的中文人名识别研究 [J].
邱莎 ;
段玻 ;
申浩如 ;
丁海燕 .
昆明学院学报, 2011, 33 (06) :64-66
[4]   先秦人名识别初探 [J].
汪青青 .
文教资料, 2009, (18) :202-204
[5]  
中文文本信息处理的原理与应用.[M].苗夺谦; 卫志华; 编著.清华大学出版社.2007,
[6]  
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[7]  
明史.[M].(清)张廷玉等撰;.中华书局.1974,