基于网络文本的汉语多词表达抽取方法

被引:5
作者
龚双双
陈钰枫
徐金安
张玉洁
机构
[1] 北京交通大学计算机与信息技术学院
基金
北京市自然科学基金; 中央高校基本科研业务费专项资金资助;
关键词
多词表达; 左右熵; 增强互信息; SVM; 分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
多词表达(multiword expressions,MWEs)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现,给分词和后续文本理解带来了巨大挑战,因此,面向网络文本提出了一种双层抽取策略来实现多词表达的识别。第一层次,利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,在第一层次获得的多词表达候选列表的基础上,利用SVM分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验测试,在5 000条微博语料上,第一层次获得的多词表达的F值为84. 92%,第二层次多词表达识别的F值为89. 58%,相比于基线系统,性能有很大的提升。实验结果表明,双层抽取策略能够实现网络多词表达的有效抽取,并能有效改善分词结果。
引用
收藏
页码:40 / 48
页数:9
相关论文
共 14 条
[11]  
A Bio-Inspired Approach for Multi-Word Expression Extraction. Duan, Jianyong,Lu ruanzhan,and Wu, Weilin,and Hu, Yi,and Tian, Yan. Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Lin-guistics . 2006
[12]  
Twin support vector machines for pattern classification. Jayadeva,Khemchandani, R.,Chandra, Suresh. IEEE Transactions on Pattern Analysis and Machine Intelligence . 2007
[13]   Word2vec的工作原理及应用探究 [J].
周练 .
科技情报开发与经济, 2015, 25 (02) :145-148
[14]   A New Multiword Expression Metric and Its Applications [J].
布凡 ;
朱小燕 ;
李明 .
JournalofComputerScience&Technology, 2011, 26 (01) :3-13