基于古汉语语料的新词发现方法

被引:28
作者
刘昱彤
吴斌
谢韬
王柏
机构
[1] 北京邮电大学智能通信软件与多媒体北京市重点实验室
关键词
Apriori的改进算法; 长短时记忆网络; 条件随机场; 过滤规则; 并行化;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步。该文提出一种基于古汉语料的新词识别方法,称为AP-LSTM-CRF算法。该算法分为三个步骤。第一步,基于Apache Spark分布式并行计算框架实现的并行化的Apriori改进算法,能够高效地从大规模原始语料中产生候选词集。第二步,用结合循环神经网络和条件随机场的切分概率模型对测试集文档的句子进行切分,产生切分概率的序列。第三步,用结合切分概率的过滤规则从候选词集里过滤掉噪声词,从而筛选出真正的新词。实验结果表明,该新词发现方法能够有效地从大规模古汉语语料中发现新词,在宋词和宋史数据集上分别进行实验,F1值分别达到了89.68%和81.13%,与现有方法相比,F1值分别提高了8.66%和2.21%。
引用
收藏
页码:46 / 55
页数:10
相关论文
共 8 条
[1]
融合规则与统计的微博新词发现方法 [J].
周霜霜 ;
徐金安 ;
陈钰枫 ;
张玉洁 .
计算机应用, 2017, 37 (04) :1044-1050
[2]
面向网络语言基于微博语料的新词发现方法 [J].
雷一鸣 ;
刘勇 ;
霍华 .
计算机工程与设计, 2017, 38 (03) :789-794
[3]
利用新词探测提高中文微博的情感表达抽取 [J].
万琪 ;
于中华 ;
陈黎 ;
宋磊磊 ;
丁革建 .
中国科学技术大学学报, 2017, 47 (01) :63-69
[4]
基于互信息改进算法的新词发现对中文分词系统改进 [J].
杜丽萍 ;
李晓戈 ;
于根 ;
刘春丽 ;
刘睿 .
北京大学学报(自然科学版), 2016, 52 (01) :35-40
[5]
基于词向量的情感新词发现方法 [J].
杨阳 ;
刘龙飞 ;
魏现辉 ;
林鸿飞 .
山东大学学报(理学版), 2014, 49 (11) :51-58
[6]
基于微博内容的新词发现方法 [J].
霍帅 ;
张敏 ;
刘奕群 ;
马少平 .
模式识别与人工智能, 2014, 27 (02) :141-145
[7]
基于条件随机场方法的开放领域新词发现 [J].
陈飞 ;
刘奕群 ;
魏超 ;
张云亮 ;
张敏 ;
马少平 .
软件学报, 2013, 24 (05) :1051-1060
[8]
中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19