基于条件随机场的专利术语抽取

被引:7
作者
刘辉
刘耀
机构
[1] 中国科学技术信息研究所
关键词
条件随机场; 术语抽取; 序列标注;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。
引用
收藏
页码:46 / 49
页数:4
相关论文
共 9 条