基于网络文本的汉语多词表达抽取方法

被引:5
作者
龚双双
陈钰枫
徐金安
张玉洁
机构
[1] 北京交通大学计算机与信息技术学院
基金
北京市自然科学基金; 中央高校基本科研业务费专项资金资助;
关键词
多词表达; 左右熵; 增强互信息; SVM; 分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
多词表达(multiword expressions,MWEs)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现,给分词和后续文本理解带来了巨大挑战,因此,面向网络文本提出了一种双层抽取策略来实现多词表达的识别。第一层次,利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,在第一层次获得的多词表达候选列表的基础上,利用SVM分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验测试,在5 000条微博语料上,第一层次获得的多词表达的F值为84. 92%,第二层次多词表达识别的F值为89. 58%,相比于基线系统,性能有很大的提升。实验结果表明,双层抽取策略能够实现网络多词表达的有效抽取,并能有效改善分词结果。
引用
收藏
页码:40 / 48
页数:9
相关论文
共 14 条
[1]   英中可比语料库中多词表达自动提取与对齐 [J].
肖健 ;
徐建 ;
徐晓兰 ;
袁琦 .
计算机工程与应用, 2010, 46 (31) :130-134+187
[2]  
VNC结构多词表达的抽取与分类[D]. 缪苗.北京邮电大学 2011
[3]  
基于二分类SVM的多分类方法比较研究[D]. 焦春鹏.西安电子科技大学 2011
[4]  
Improving statistical machine translation using domain bilingual multiword expressions. REN Z,LY,CAO J,et al. Proceedings of the 2009 Workshop on M ultiw ord Expressions . 2009
[5]  
Extraction method of micro-blog new login word based on improved position-word probability. ZHU H,ZHANG S. International Conference on Applications&Techniques in Cyber Security&Intelligence . 2017
[6]  
Alignment-based extraction of multiword expressions[J] .  &nbspLanguage Resources and Evaluation . 2010 (1)
[7]   Improving effectiveness of mutual information for substantival multiword expression extraction [J].
Zhang, Wen ;
Yoshida, Taketoshi ;
Tang, Xijin ;
Ho, Tu-Bao .
EXPERT SYSTEMS WITH APPLICATIONS, 2009, 36 (08) :10919-10930
[8]  
The architecture of the language faculty. JACKENDOFF R. . 1997
[9]  
An empirical model of multiword expression decomposability. Baldwin T,Bannardz C,Tanaka T et al. the ACL-2003 Workshop on Multiword Expressions:Analysis,Acquisition and Treatment . 2003
[10]  
Automatic extraction of chinese multiword expressions with a statistical tool. PIAO S S,SUN Guangfan,RAYSON P,et al. Proceedings ofthe Workshop on Multiword expressions in a Multilingual Context . 2006