古汉语双字词自动获取方法的比较与分析

被引:8
作者
段磊
韩芳
宋继华
机构
[1] 北京师范大学计算机科学与技术学院
关键词
中文信息处理; 古汉语; 史记; 双字词; 统计模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
词汇的自动获取在自然语言生成、计算词典编纂、句法分析以及语料库语言学等领域均有着重要的研究价值。该文针对古汉语双字词的自动获取问题,以《史记》全文语料为例,分别应用基于频率、互信息、假设检验的统计方法获取古汉语双字词,并结合人工标注结果进行了详细的比较和分析,评价了各方法的优缺点及可靠性,为不同应用背景下的古汉语双字词自动获取提供了相应的解决方案。
引用
收藏
页码:34 / 42
页数:9
相关论文
共 7 条
[1]  
概率论与数理统计[M]. 高等教育出版社 , 盛骤等编, 2001
[2]   基于统计模型的词语搭配自动获取方法的分析与比较 [J].
全昌勤 ;
刘辉 ;
何婷婷 .
计算机应用研究, 2005, (09) :55-57
[3]  
Statics for Corpus Linguistics. Oakes M. . 1998
[4]  
Foundations of Sta-tistical Natural Language Processing. Christopher D Manning Hinrich. .
[5]  
统计自然语言处理基础[M]. 电子工业出版社 , (美)ChristopherD.Manning,(德)HinrichSchutze著, 2005
[6]  
应用统计学[M]. 北京交通大学出版社 , 李时编著, 2005
[7]  
古代汉语[M]. 北京出版社 , 王宁主编, 2002