古汉语双字词自动获取方法的比较与分析

被引：8

作者：

段磊

韩芳

宋继华

机构：

[1] 北京师范大学计算机科学与技术学院

来源：

中文信息学报 | 2012年 / 04期

关键词：

中文信息处理; 古汉语; 史记; 双字词; 统计模型;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

词汇的自动获取在自然语言生成、计算词典编纂、句法分析以及语料库语言学等领域均有着重要的研究价值。该文针对古汉语双字词的自动获取问题,以《史记》全文语料为例,分别应用基于频率、互信息、假设检验的统计方法获取古汉语双字词,并结合人工标注结果进行了详细的比较和分析,评价了各方法的优缺点及可靠性,为不同应用背景下的古汉语双字词自动获取提供了相应的解决方案。

引用

页码：34 / 42

页数：9

共 7 条

[1]

概率论与数理统计[M]. 高等教育出版社 , 盛骤等编, 2001

[2] 基于统计模型的词语搭配自动获取方法的分析与比较 [J].

全昌勤 ;

刘辉 ;

何婷婷 .

计算机应用研究, 2005, (09) :55-57

[3]

Statics for Corpus Linguistics. Oakes M. . 1998

[4]

Foundations of Sta-tistical Natural Language Processing. Christopher D Manning Hinrich. .

[5]

统计自然语言处理基础[M]. 电子工业出版社 , (美)ChristopherD.Manning,(德)HinrichSchutze著, 2005

[6]

应用统计学[M]. 北京交通大学出版社 , 李时编著, 2005

[7]

古代汉语[M]. 北京出版社 , 王宁主编, 2002

← 1 →