基于新词发现的跨领域中文分词方法

被引:4
作者
张军
赖志鹏
李学
宁更新
杨萃
机构
[1] 华南理工大学电子与信息学院
基金
广东省自然科学基金;
关键词
中文分词; 新词发现; 跨领域; 向量增强互信息; 对抗式训练;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。
引用
收藏
页码:3241 / 3248
页数:8
相关论文
共 8 条
  • [1] 基于互信息和邻接熵的新词发现算法
    刘伟童
    刘培玉
    刘文锋
    李娜娜
    [J]. 计算机应用研究, 2019, 36 (05) : 1293 - 1296
  • [2] 基于无向图序列标注模型的中文分词词性标注一体化系统
    朱聪慧
    赵铁军
    郑德权
    [J]. 电子与信息学报, 2010, 32 (03) : 700 - 704
  • [3] 基于字典和统计的分词方法
    陈平
    刘晓霞
    李亚军
    [J]. 计算机工程与应用 , 2008, (10) : 144 - 146
  • [4] 基于反序词典的中文分词技术研究
    罗桂琼
    费洪晓
    戴弋
    [J]. 计算机技术与发展, 2008, (01) : 80 - 83
  • [5] Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition[J] . Zheng Yuan,Yuanhao Liu,Qiuyang Yin,Boyao Li,Xiaobin Feng,Guoming Zhang,Sheng Yu.Journal of Biomedical Informatics . 2020
  • [6] Event Arguments Extraction via Dilate Gated Convolutional Neural Network with Enhanced Local Features[J] . Zhigang Kan,Linbo Qiao,Sen Yang,Feng Liu,Feng Huang.IEEE Access . 2020
  • [7] Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition[J] . Qi Wang,Yangming Zhou,Tong Ruan,Daqi Gao,Yuhang Xia,Ping He.Journal of Biomedical Informatics . 2019
  • [8] Statistical language model adaptation: review and perspectives[J] . Jerome R Bellegarda.Speech Communication . 2003 (1)