采用改进重采样和BRF方法的定义抽取研究

被引:7
作者
潘湑
顾宏斌
机构
[1] 南京航空航天大学民航学院
关键词
自然语言处理; 术语定义; 定义抽取; 文本分类; 重采样;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为了从专业领域语料中发现并获取所有的专业术语定义,该文提出了使用分类方法进行专业术语定义抽取的方法。该文采用一种基于实例距离分布信息的过采样方法,将其与随机欠采样方法结合用以建立平衡训练语料,并使用BRF(Balanced Random Forest)方法来获得C4.5决策树的聚合分类结果。该方法获得了最好65%的F1-measure成绩和78%的F2-measure成绩,超过了仅使用BRF方法取得的成绩。
引用
收藏
页码:30 / 37
页数:8
相关论文
共 7 条
[1]  
术语定义抽取、聚类与术语识别研究[D]. 张榕.北京语言大学. 2006
[2]  
现代术语学引论[M]. 语文出版社 , 冯志伟著, 1997
[3]   Soft pattern matching models for definitional question answering [J].
Cui, Hang ;
Kan, Min-Yen ;
Chua, Tatseng .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2007, 25 (02)
[4]  
Machine Learning for the Detection of Oil Spills in Satellite Radar Images[J] . Miroslav Kubat,Robert C. Holte,Stan Matwin.Machine Learning . 1998 (2)
[5]   Bagging predictors [J].
Breiman, L .
MACHINE LEARNING, 1996, 24 (02) :123-140
[6]  
MetaCost: A general method for making classifiers cost-sensitive .2 Domingos P. Proc. the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . 1819
[7]  
Unsupervised learning of soft patterns for generatingdefinitions from online news .2 Hang Cui,Min-Yen Kan,Tat-Seng Chua. Proc 13thinternational conference on World Wide Web . 2004