基于混合模型的中文命名实体抽取系统

被引：10

作者：

王睿

张洁

张由仪

于禛

姚天昉

机构：

[1] 上海交通大学计算机科学与工程系

[2] 上海交通大学计算机科学与工程系上海200030

来源：

清华大学学报(自然科学版) | 2005年 / S1期

关键词：

分词; 领域; 统计学方法; 语言学方法;

D O I：

10.16511/j.cnki.qhdxxb.2005.s1.038

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

中文命名实体抽取的研究,存在分词、领域和方法三个方面的问题需要解决。解决方案是:利用规则,对机器分词后的文本进行修正;提出“群山”模型,对不同领域制定不同的语言学规则;以统计学方法和语言学方法结合,对不同命名实体采用不同的方法等。根据实验结果,得出以下结论:分词的错误将严重影响到最终的抽取结果;领域规则的应用可以提升抽取效果;不同方法的有机结合比采用单一方法有效。

引用

页码：1908 / 1914

页数：7

共 10 条

[1] 基于统计的中文姓名识别方法研究 [J].