面向商务信息抽取的产品命名实体识别研究

被引:45
作者
刘非凡 [1 ]
赵军 [1 ]
吕碧波 [1 ]
徐波 [1 ]
于浩 [2 ]
夏迎炬 [2 ]
机构
[1] 中国科学院自动化研究所模式识别国家重点实验室
[2] 富士通研究开发中心有限公司
基金
北京市自然科学基金;
关键词
计算机应用; 中文信息处理; 产品命名实体识别; 商务信息抽取; 层级隐马尔可夫模型;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hid-den Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7%,86.9%,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。
引用
收藏
页码:7 / 13
页数:7
相关论文
共 1 条
  • [1] The Hierarchical Hidden Markov Model: Analysis and Applications[J] . Shai Fine,Yoram Singer,Naftali Tishby.Machine Learning . 1998 (1)