共 10 条
基于混合模型的中文命名实体抽取系统
被引:10
作者:
王睿
张洁
张由仪
于禛
姚天昉
机构:
[1] 上海交通大学计算机科学与工程系
[2] 上海交通大学计算机科学与工程系 上海200030
来源:
关键词:
分词;
领域;
统计学方法;
语言学方法;
D O I:
10.16511/j.cnki.qhdxxb.2005.s1.038
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
中文命名实体抽取的研究,存在分词、领域和方法三个方面的问题需要解决。解决方案是:利用规则,对机器分词后的文本进行修正;提出“群山”模型,对不同领域制定不同的语言学规则;以统计学方法和语言学方法结合,对不同命名实体采用不同的方法等。根据实验结果,得出以下结论:分词的错误将严重影响到最终的抽取结果;领域规则的应用可以提升抽取效果;不同方法的有机结合比采用单一方法有效。
引用
收藏
页码:1908 / 1914
页数:7
相关论文