基于混合策略的高精度长术语自动抽取

被引:18
作者
梁颖红 [1 ,2 ]
张文静 [2 ]
周德富 [1 ]
机构
[1] 江苏省现代企业信息化应用支撑软件工程技术研究开发中心
[2] 东北林业大学信息与计算机工程学院
关键词
计算机应用; 中文信息处理; 术语抽取; NC-value; 互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点。该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法。该方法充分发挥了NC-value参数在利用词语上下文信息和互信息参数在词语结合强度两方面的优势,两者相互约束和配合,更有利于找到准确的长术语边界。采用生物信息领域Yapex语料进行实验,结果表明,三字以上长术语抽取正确率和召回率分别达到88.5%和76.6%,F测量值达到82.2%,稍高于其他方法的结果。
引用
收藏
页码:26 / 30
页数:5
相关论文
共 2 条