基于混合模型的中文命名实体抽取系统

被引:10
作者
王睿
张洁
张由仪
于禛
姚天昉
机构
[1] 上海交通大学计算机科学与工程系
[2] 上海交通大学计算机科学与工程系 上海200030
关键词
分词; 领域; 统计学方法; 语言学方法;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.038
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文命名实体抽取的研究,存在分词、领域和方法三个方面的问题需要解决。解决方案是:利用规则,对机器分词后的文本进行修正;提出“群山”模型,对不同领域制定不同的语言学规则;以统计学方法和语言学方法结合,对不同命名实体采用不同的方法等。根据实验结果,得出以下结论:分词的错误将严重影响到最终的抽取结果;领域规则的应用可以提升抽取效果;不同方法的有机结合比采用单一方法有效。
引用
收藏
页码:1908 / 1914
页数:7
相关论文
共 10 条
[1]   基于统计的中文姓名识别方法研究 [J].
张锋 ;
樊孝忠 ;
许云 .
计算机工程与应用, 2004, (10) :53-54+77
[2]   信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66
[3]   基于统计的中文地名识别 [J].
黄德根 ;
岳广玲 ;
杨元生 .
中文信息学报, 2003, (02) :36-41
[4]   基于HMM的中国组织机构名自动识别 [J].
郑家恒 ;
张辉 .
计算机应用, 2002, (11) :1-2+25
[5]   中国地名自动识别系统的设计与实现 [J].
谭红叶 ;
郑家恒 ;
刘开瑛 .
计算机工程, 2002, (08) :128-129+270
[6]   中国组织机构名自动识别系统的设计与实现 [J].
张辉 ;
徐健 .
电脑开发与应用, 2002, (01) :5-6+9
[7]   基于变换的中国地名自动识别研究(英文) [J].
谭红叶 ;
郑家恒 ;
刘开瑛 .
软件学报, 2001, (11) :1608-1613
[8]   基于统计方法的中文姓名识别 [J].
刘秉伟 ;
黄萱菁 ;
郭以昆 ;
吴立德 .
中文信息学报, 2000, (03) :16-24+36
[9]   基于结合性自动识别中文姓名 [J].
张跃 ;
姚天顺 .
小型微型计算机系统, 1997, (10) :44-49
[10]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27