基于规则和统计的日语分词和词性标注的研究

被引：4

作者：

姜尚仆 ^{[1
,2
]}

陈群秀 ^{[1
,2
]}

机构：

[1] 清华大学信息科学与技术国家实验室

[2] 清华大学计算机科学与技术系

来源：

中文信息学报 | 2010年 / 01期

关键词：

人工智能; 机器翻译; 日汉机器翻译系统; 日语分词; 日语词性标注; 联合分词;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

日语分词和词性标注是以日语为源语言的机器翻译等自然语言处理工作的第一步。该文提出了一种基于规则和统计的日语分词和词性标注方法,使用基于单一感知器的联合分词和词性标注算法作为基本框架,在其中加入了基于规则的词语的邻接属性作为特征。在小规模测试集上的实验结果表明,这种方法分词的F值达到了98.2%,分词加词性标注的F值达到了94.8%。该文所采用的方法已经成功应用到日汉机器翻译系统中。

引用

页码：117 / 122

页数：6