基于词频分布变化统计的术语抽取方法

被引:27
作者
周浪 [1 ,2 ]
张亮 [3 ]
冯冲 [2 ]
黄河燕 [2 ]
机构
[1] 南京理工大学计算机科学与技术学院
[2] 计算机语言信息工程研究中心
[3] 南京大学计算机科学与技术学院
关键词
术语抽取; 机器学习; 分布方差; 知识获取; termhood; unithood;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出了一种利用术语在语料中词频分布变化程度的统计信息来检验术语的领域相关性的方法,同时结合机器学习方法获取的语言知识,从计算机领域的语料中抽取领域特征明显的词组型术语。实验证明,该方法对低频术语和高频普通词串有较强的分辨能力。
引用
收藏
页码:177 / 180
页数:4
相关论文
共 5 条
[1]   基于聚类方法对特定领域术语的自动筛选 [J].
李勇 .
计算机工程与科学, 2008, (02) :64-66+134
[2]   Automatic recognition of multi-word terms: The C-value/NC-value method [J].
Frantzi K. ;
Ananiadou S. ;
Mima H. .
International Journal on Digital Libraries, 2000, 3 (2) :115-130
[3]  
Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases..Bourigault D;.Proceedings of COLING‘92.1992,
[4]  
基于TFIDF的专业领域词汇获取的研究.[A].刘桐菊;于浩;杨沐昀;.第一届学生计算语言学研讨会.2002,
[5]  
术语定义抽取、聚类与术语识别研究.[D].张榕.北京语言大学.2006, 11