学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于自动句对齐的相似古文句子检索
被引:14
作者
:
郭锐
论文数:
0
引用数:
0
h-index:
0
机构:
北京师范大学信息科学与技术学院
郭锐
论文数:
引用数:
h-index:
机构:
宋继华
论文数:
引用数:
h-index:
机构:
廖敏
机构
:
[1]
北京师范大学信息科学与技术学院
来源
:
中文信息学报
|
2008年
/ 02期
关键词
:
计算机应用;
中文信息处理;
古今汉语平行语料库;
句子对齐;
相似句子;
基于实例的机器翻译;
D O I
:
暂无
中图分类号
:
TP391.3 [检索机];
学科分类号
:
摘要
:
随着语料库语言学的兴起,基于实例的机器翻译(EBMT)得到越来越多的研究。如何快速准确地构建大规模古今汉语平行语料库,以及从大量的对齐实例(句子级)中检索和输入句子最相似的源句子是基于实例的古今汉语机器翻译必须解决的问题。本文综合考虑句子长度、汉字字形、标点符号三个因素提出了古今汉语句子互译模型,基于遗传算法、动态规划算法实现了古今汉语的自动句对齐。接着为古文句子建立全文索引,基于汉字的信息熵,本文设计与实现一种高效的最相似古文句子检索算法。最后给出了自动句对齐和最相似古文句子检索的实验结果。
引用
收藏
页码:87 / 91+105 +105
页数:6
相关论文
共 3 条
[1]
基于长度的扩展方法的汉英句子对齐
张艳
论文数:
0
引用数:
0
h-index:
0
机构:
国际电气通信技术研究所音声言语通信研究所
张艳
柏冈秀纪
论文数:
0
引用数:
0
h-index:
0
机构:
国际电气通信技术研究所音声言语通信研究所
柏冈秀纪
[J].
中文信息学报,
2005,
(05)
: 31
-
36+58
[2]
文言 白话 普通话 方言
李如龙
论文数:
0
引用数:
0
h-index:
0
机构:
厦门大学人文学院中文系厦门
李如龙
[J].
语言文字应用,
2003,
(04)
: 2
-
9
[3]
Aligning Sentences in Bilingual CorporaUsing Lexical Information .2 S.F.Chen. Proc.of the 31stAnnual Meeting of the ACL-31 . 1993
←
1
→
共 3 条
[1]
基于长度的扩展方法的汉英句子对齐
张艳
论文数:
0
引用数:
0
h-index:
0
机构:
国际电气通信技术研究所音声言语通信研究所
张艳
柏冈秀纪
论文数:
0
引用数:
0
h-index:
0
机构:
国际电气通信技术研究所音声言语通信研究所
柏冈秀纪
[J].
中文信息学报,
2005,
(05)
: 31
-
36+58
[2]
文言 白话 普通话 方言
李如龙
论文数:
0
引用数:
0
h-index:
0
机构:
厦门大学人文学院中文系厦门
李如龙
[J].
语言文字应用,
2003,
(04)
: 2
-
9
[3]
Aligning Sentences in Bilingual CorporaUsing Lexical Information .2 S.F.Chen. Proc.of the 31stAnnual Meeting of the ACL-31 . 1993
←
1
→