大数据背景下的谷歌翻译——现状与挑战

被引:20
作者
斯介生 [1 ]
宋大我 [2 ]
李扬 [3 ,4 ]
机构
[1] 杭州电子科技大学经济学院
[2] 中国人民大学
[3] 中国人民大学统计学院
[4] 中国人民大学统计咨询研究中心
基金
中央高校基本科研业务费专项资金资助;
关键词
谷歌翻译; 统计机器翻译; 最大熵; 最小误差率损失;
D O I
10.19343/j.cnki.11-1302/c.2016.05.013
中图分类号
F49 [信息产业经济];
学科分类号
1201 ;
摘要
在大数据时代,如何通过数据分析挖掘事物的内在规律是人们需要思考的问题。谷歌翻译基于"最好的表达为出现频率最高的表达"这样的认识,将翻译问题转化为统计问题。本文以谷歌翻译为案例,详细分析了案例背景、实现过程,并给出案例反思。谷歌翻译的成功之处在于,将实际问题巧妙地转化为统计问题,并利用其强大的计算能力解决问题。其瓶颈在于,当前的方法只利用了大数据的少量信息,不能充分刻画大数据的全部信息。谷歌翻译对问题的转化和处理方式是大数据应用的典范,对利用大数据解决实际问题有重要的借鉴意义。
引用
收藏
页码:109 / 112
页数:4
相关论文
共 5 条
  • [1] 大数据与统计新思维
    李金昌
    [J]. 统计研究, 2014, 31 (01) : 10 - 17
  • [2] 数学之美[M]. 人民邮电出版社 , 吴军, 2014
  • [3] 统计自然语言处理[M]. 清华大学出版社 , 宗成庆, 2013
  • [4] Human-level concept learning through probabilistic program induction
    Lake, Brenden M.
    Salakhutdinov, Ruslan
    Tenenbaum, Joshua B.
    [J]. SCIENCE, 2015, 350 (6266) : 1332 - 1338
  • [5] The alignment template approach to statistical machine translation
    Och, FJ
    Ney, H
    [J]. COMPUTATIONAL LINGUISTICS, 2004, 30 (04) : 417 - 449