基于预训练语言模型的商品属性抽取

被引:12
作者
张世奇
马进
周夏冰
贾昊
陈文亮
张民
机构
[1] 苏州大学计算机科学与技术学院
关键词
属性抽取; 远程监督; 预训练语言模型; 跨领域学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值。该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题。为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集。基于新构建的数据集,该文进行多组实验并进行实验结果分析。特别地,基于多种预训练语言模型,进行了领域内和跨领域属性抽取。实验结果表明,预训练语言模型可以较好地提高抽取性能,其中ELECTRA在领域内属性抽取表现最佳,而在跨领域实验中BERT表现最佳。同时,该文发现增加少量目标领域标注数据可以有效提高跨领域属性抽取效果,增强了模型的领域适应性。
引用
收藏
页码:56 / 64
页数:9
相关论文
共 8 条
[1]
基于远程监督的人物属性抽取研究 [J].
马进 ;
杨一帆 ;
陈文亮 .
中文信息学报, 2020, (06) :64-72
[2]
面向军事装备实体的属性抽取 [J].
康睿智 ;
郝文宁 ;
程恺 ;
占栋辉 .
计算机应用研究, 2016, 33 (12) :3721-3724
[3]
基于弱监督学习的主页人物属性抽取方法 [J].
张巧 ;
熊锦华 ;
程学旗 .
山西大学学报(自然科学版), 2015, 38 (01) :8-15
[4]
RoBERTa: A Robustly Optimized BERT Pretraining Approach.[J] Yinhan Liu;Myle Ott;Naman Goyal;Jingfei Du;Mandar Joshi;Danqi Chen;Omer Levy;Mike Lewis;Luke Zettlemoyer;Veselin Stoyanov CoRR 2019,
[5]
Faceted product search powered by the Semantic Web[J] Damir Vandic;Jan-Willem van Dam;Flavius Frasincar Decision Support Systems 2012,
[6]
An Introduction to Conditional Random Fields.[J] Charles A. Sutton;Andrew McCallum Foundations and Trends in Machine Learning 2012,
[7]
Text mining for product attribute extraction[J] Rayid Ghani;Katharina Probst;Yan Liu;Marko Krema;Andrew Fano ACM SIGKDD Explorations Newsletter 2006,
[8]
Albert:A lite bert for selfsupervised learning of language representations Lan Z;Chen M;Goodman S;et al; Proceedings of International Conference on Learning Representations 2019,