面向本体学习的中文专利术语抽取研究

被引:18
作者
王昊 [1 ,2 ]
王密平 [1 ,2 ]
苏新宁 [1 ,2 ]
机构
[1] 南京大学信息管理学院
[2] 南京大学江苏省数据工程与知识服务重点实验室
关键词
中文专利术语; 机器学习; 条件随机场; 字角色标注; 循环迭代; 合成规则; 本体学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场的学习过程,最大限度避免因核心词汇库代替人工带来的标注不准确不充分问题;在此基础上,进一步依据合成规则构造新术语,并经过领域专家确认后添加至核心词汇库中。经过实验论证,基于字角色标注的基本术语抽取F1值高于94%,而基于合成规则的复杂术语抽取准确率也可达到75%。在7597件专利的题名和摘要文本中,最终可获得中文基本术语244672个,合成术语61536个,为领域本体的构建奠定了基础。
引用
收藏
页码:573 / 585
页数:13
相关论文
共 25 条