利用迁移学习精准识别领域信息之探讨

被引:1
作者
陆泉 [1 ,2 ]
郝志同 [1 ]
陈静 [3 ]
陈仕 [1 ]
朱安琪 [1 ]
机构
[1] 不详
[2] 武汉大学信息资源研究中心
[3] 不详
[4] 国土资源部城市土地资源监测与仿真重点实验室
[5] 华中师范大学信息管理学院
[6] 不详
关键词
迁移学习; 信息识别; RoBERTa;
D O I
10.13266/j.issn.0252-3116.2021.05.011
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
[目的/意义]将从互联网大数据中无监督学习的结果迁移到目标领域,解决目标领域因学习样本有限而信息识别效果难以提升的问题。[方法/过程]使用以中文维基百科等数据预训练的RoBERTa模型进行迁移学习,将学习结果映射到目标领域后使用DPCNN对其进行聚合凝练,然后结合部分标注数据微调模型完成领域信息的精准识别。[结果/结论]在10个领域内与未进行迁移学习的模型及经典模型TextCNN对比,提出的模型均较大幅度优于对比模型,平均后的精确率绝对提高4.15%、3.43%,召回率绝对提高4.55%、3.44%,F1分数绝对提高4.52%、3.44%,表明利用网络大数据迁移学习可以显著提升目标领域的信息识别效果。
引用
收藏
页码:110 / 117
页数:8
相关论文
共 8 条
  • [1] 微博中蕴含台风灾害损失信息识别和分类方法
    杨腾飞
    解吉波
    李振宇
    李国庆
    [J]. 地球信息科学学报, 2018, 20 (07) : 906 - 917
  • [2] LDA模型在专利文本分类中的应用
    廖列法
    勒孚刚
    朱亚兰
    [J]. 现代情报, 2017, 37 (03) : 35 - 39
  • [3] 迁移学习研究进展
    庄福振
    罗平
    何清
    史忠植
    [J]. 软件学报, 2015, 26 (01) : 26 - 39
  • [4] 基于机器学习的新闻分类系统研究与实现[D]. 黄涛.北京邮电大学. 2019
  • [5] 模式识别[M]. 清华大学出版社 , 张学工, 2010
  • [6] 信息知识词典[M]. 军事谊文出版社 , 潘洪亮, 2002
  • [7] RoBERTa: A Robustly Optimized BERT Pretraining Approach.[J] . Yinhan Liu,Myle Ott,Naman Goyal,Jingfei Du,Mandar Joshi,Danqi Chen,Omer Levy,Mike Lewis,Luke Zettlemoyer,Veselin Stoyanov. CoRR . 2019
  • [8] Improving BERT-Based Text Classification With Auxiliary Sentence and Domain Knowledge
    Yu, Shanshan
    Su, Jindian
    Luo, Da
    [J]. IEEE ACCESS, 2019, 7 : 176600 - 176612