基于多策略的专业领域术语抽取器的设计

被引:23
作者
杜波
田怀凤
王立
陆汝占
机构
[1] 上海交通大学计算机系
关键词
自然语言处理; 术语抽取; 多策略;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
设计了一个将统计方法与规则方法相结合的专业领域内术语抽取算法。针对专业领域术语的特点,利用多种衡量字符串中各字之间结合“紧密程度”的统计量,先使用阈值分类器抽取出双字候选项;然后再对这些候选项向左右进行一定程度的扩充,从中筛选出符合要求的多字候选项;最后将所得候选项进行过滤,得到最终结果。据此实现了一个以未切分标注的生语料为输入、以专业领域术语为输出的抽取程序,在对多个领域内的语料进行测试后对实验结果进行分析,指出其中存在的问题,对未来的工作作出了展望。
引用
收藏
页码:159 / 160
页数:2
相关论文
共 2 条
  • [1] 农业病虫害词汇获取方法初探[A]. 郑家恒,杜永萍,宋礼鹏.语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C]. 2003
  • [2] 现代术语学引论[M]. 语文出版社 , 冯志伟著, 1997