基于条件随机场的汽车领域术语抽取

被引:16
作者
李丽双 [1 ]
党延忠 [2 ]
张婧 [1 ]
李丹 [1 ]
机构
[1] 大连理工大学计算机科学与技术学院
[2] 大连理工大学管理科学与工程学院
关键词
信息抽取; 领域术语抽取; 汽车领域术语; 条件随机场;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditional random fields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语料标注规则进行人工标注,对汽车领域进行了术语抽取.在使用词和词性特征的基础上增加了词典特征、领域词频和背景领域词频等特征,精确率、召回率和F-值分别达到84.61%、80.50%和82.50%.与其他方法比较说明所提出的汽车领域术语抽取方法是有效的.
引用
收藏
页码:267 / 272
页数:6
相关论文
共 7 条