一种基于循环神经网络的古文断句方法

被引:30
作者
王博立 [1 ]
史晓东 [1 ,2 ,3 ]
苏劲松 [4 ]
机构
[1] 厦门大学智能科学与技术系
[2] 厦门大学两岸关系和平发展协同创新中心
[3] 福建省类脑计算技术及应用重点实验室
[4] 厦门大学软件学院
关键词
古汉语; 断句; 循环神经网络;
D O I
10.13209/j.0479-8023.2017.032
中图分类号
TP391.1 [文字信息处理]; TP183 [人工神经网络与计算];
学科分类号
摘要
提出一种基于循环神经网络的古文自动断句方法。该方法采用基于GRU(gated recurrent unit)的双向循环神经网络进行古文断句。在解码过程中,该算法不仅利用神经网络输出的概率分布,还进一步引入状态转移概率和长度惩罚,以便提高断句准确率。在大规模古籍语料上的实验结果表明,所提方法能够取得比传统方法更高的断句F1值。
引用
收藏
页码:255 / 261
页数:7
相关论文
共 5 条
  • [1] 基于条件随机场的古汉语自动断句与标点方法
    张开旭
    夏云庆
    宇航
    [J]. 清华大学学报(自然科学版), 2009, 49 (10) : 1733 - 1736
  • [2] 一种基于层叠CRF的古文断句与句读标记方法
    张合
    王晓东
    杨建宇
    周卫东
    [J]. 计算机应用研究, 2009, 26 (09) : 3326 - 3329
  • [3] 农业古籍断句标点模式研究
    黄建年
    侯汉清
    [J]. 中文信息学报, 2008, (04) : 31 - 38
  • [4] 基于前后文n-gram模型的古汉语句子切分
    陈天莹
    陈蓉
    潘璐璐
    李红军
    于中华
    [J]. 计算机工程, 2007, (03) : 192 - 193+196
  • [5] On early stopping in gradient descent learning
    Yao, Yuan
    Rosasco, Lorenzo
    Caponnetto, Andrea
    [J]. CONSTRUCTIVE APPROXIMATION, 2007, 26 (02) : 289 - 315