大数据背景下的谷歌翻译——现状与挑战

被引：20

作者：

斯介生 ^{[1
]}

宋大我 ^{[2
]}

李扬 ^{[3
,4
]}

机构：

[1] 杭州电子科技大学经济学院

[2] 中国人民大学

[3] 中国人民大学统计学院

[4] 中国人民大学统计咨询研究中心

来源：

统计研究 | 2016年 / 33卷 / 05期

基金：

中央高校基本科研业务费专项资金资助;

关键词：

谷歌翻译; 统计机器翻译; 最大熵; 最小误差率损失;

D O I：

10.19343/j.cnki.11-1302/c.2016.05.013

中图分类号：

F49 [信息产业经济];

学科分类号：

1201 ;

摘要：

在大数据时代,如何通过数据分析挖掘事物的内在规律是人们需要思考的问题。谷歌翻译基于"最好的表达为出现频率最高的表达"这样的认识,将翻译问题转化为统计问题。本文以谷歌翻译为案例,详细分析了案例背景、实现过程,并给出案例反思。谷歌翻译的成功之处在于,将实际问题巧妙地转化为统计问题,并利用其强大的计算能力解决问题。其瓶颈在于,当前的方法只利用了大数据的少量信息,不能充分刻画大数据的全部信息。谷歌翻译对问题的转化和处理方式是大数据应用的典范,对利用大数据解决实际问题有重要的借鉴意义。

引用

页码：109 / 112

页数：4

共 5 条

[1] 大数据与统计新思维
李金昌
[J]. 统计研究, 2014, 31 (01) : 10 - 17
[2] 数学之美[M]. 人民邮电出版社 , 吴军, 2014
[3] 统计自然语言处理[M]. 清华大学出版社 , 宗成庆, 2013
[4] Human-level concept learning through probabilistic program induction
Lake, Brenden M.
Salakhutdinov, Ruslan
Tenenbaum, Joshua B.
[J]. SCIENCE, 2015, 350 (6266) : 1332 - 1338
[5] The alignment template approach to statistical machine translation
Och, FJ
Ney, H
[J]. COMPUTATIONAL LINGUISTICS, 2004, 30 (04) : 417 - 449

← 1 →