基于SVR模型的中文领域术语自动抽取研究——面向图书情报领域

被引:6
作者
蒋婷
孙建军
机构
[1] 南京大学信息管理学院
关键词
支持向量回归机; 本体构建; 本体学习; 术语抽取;
D O I
10.16353/j.cnki.1000-7490.2016.01.004
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
[目的/意义]术语是本体的重要组成部分,术语自动抽取是本体自动构建的基础,文章采用回归的方法对未登录词进行概率(某个数值(组合)对应的候选词集合中术语的概率)预测,获得该词可能为术语的概率。[方法/过程]文章结合语言学和统计方法,通过构建术语库提取术语抽取模板来抽取候选术语,此外,通过引入回归的方法,将术语抽取问题转化为对词语成为术语的概率的预测问题。[结果/结论]提出的方法最后通过实验验证了其有效性。
引用
收藏
页码:24 / 31+15 +15
页数:9
相关论文
共 35 条
[1]  
Study and implementation of combined techniques for automatic extraction of terminology. B. Daille. The Balancing Act: Combining Symbolic and Statistical Approaches to Language . 1996
[2]  
Highlights Language and Domain-Independent Automatic Indexing Terms for Abstracting. Cohen JD. Journal of American Society for Information Science . 1995
[3]  
Experiments in automatic extracting and indexing. Lois L. Earl. Information Storage and Retrieval . 1970
[4]  
Technical terminology: some linguistic properties and an algorithm for identification in text[J] . John S. Justeson,Slava M. Katz. &nbspNatural Language Engineering . 1995 (1)
[5]  
Automatic recognition of multi-word terms:. the C-value/NC-value method[J] . Katerina Frantzi,Sophia Ananiadou,Hideki Mima. &nbspInternational Journal on Digital Libraries . 2000 (2)
[6]   A tutorial on support vector regression [J].
Smola, AJ ;
Schölkopf, B .
STATISTICS AND COMPUTING, 2004, 14 (03) :199-222
[7]   Bilingual terminology extraction using multi-level termhood [J].
Zhang, Chengzhi ;
Wu, Dan .
ELECTRONIC LIBRARY, 2012, 30 (02) :295-308
[8]  
基于多层术语度的一体化术语抽取研究[J]. 章成志.  报学报. 2011 (03)
[9]  
基于多策略的领域本体术语抽取研究[J]. 何琳.  报学报. 2012 (08)
[10]   基于词频分布变化统计的术语抽取方法 [J].
周浪 ;
张亮 ;
冯冲 ;
黄河燕 .
计算机科学, 2009, 36 (05) :177-180