C值和互信息相结合的术语抽取

被引:7
作者
梁颖红 [1 ]
张文静 [2 ]
张有承 [2 ]
机构
[1] 苏州市职业大学江苏省现代企业信息化应用支撑软件工程技术研究开发中心
[2] 东北林业大学信息与计算机工程学院
关键词
术语抽取; C值; 互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在目前的生物信息领域开放语料的术语抽取实验中,前2000多个双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了名词术语自动抽取的一个难点问题。针对该难点,提出综合C-value参数在长术语抽取方面的优势,并与术语抽取中的互信息参数相结合的策略来识别术语。实验结果表明,长术语抽取正确率为75.7%,召回率为68.4%,F测量值为71.9%,高于相同语料下的其他方法。
引用
收藏
页码:108 / 110
页数:3
相关论文
共 5 条
[1]  
Technical terminology: some linguistic properties and an algorithm for identification in text[J] . John S. Justeson,Slava M. Katz.Natural Language Engineering . 1995 (1)
[2]  
Retrieving collocations from text: Xtraet. Frank Smadja. . 1993
[3]  
Identifying Contextual Informationfor Multi-Word Term Extraction. Diana Maynard,Sophia Ananiadou. . 1999
[4]  
A Statistical Corpus-Based Term Extractor. Patrick Pantel,Dekang Lin. Canadian Conference on AI 2001 . 2001
[5]  
A Theory of Term Importance in Automatic Text Analysis. Salton G,Yang C. Journal of the American Society for Information Science . 1975