基于GATE的中文信息抽取系统的开发和实现

被引：0

作者：

李飒

机构：

[1] 中国科学院研究生院（文献情报中心）

关键词：

知识技术; 中文信息抽取; 英文信息抽取; 中英文混合信息抽取; GATE; ICTCLAS;

D O I：

暂无

年度学位：

2006

学位类型：

硕士

导师：

张智雄;

摘要：

面对网络化、数字化、海量分布、复杂的信息资源,数字图书馆还不能有效地揭示和发现信息之间内在的知识联系。信息抽取技术的出现,使将海量的无结构数据自动转化为有结构信息的过程成为可能。作者在大量技术调研基础上,针对目前国内外信息抽取系统主要针对英文抽取的现状,经过实验分析比较提出了中文信息抽取的解决方案:在 GATE 框架下,开发中文信息抽取插件,其中利用了 ICTCLAS 分词工具。解决中文信息抽取有 3 个难点,分别是中文分词、中文语料词表和中文命名实体识别。除了利用 ICTCLAS 解决中文分词问题外,作者针对不同领域收集制作了上百兆符合 GATE 格式的中英文语料词表,并针对中文的语言特点撰写了上百条 JAPE 规则来提高中文命名实体识别的准确率。系统实现后,作者还将基于 GATE 的中文信息抽取系统对 RSS 科技信息聚合系统采集的数据进行了应用:对已经采集到本地的数百条无结构科技新闻进行了信息抽取实验,验证了系统的可用性。通过实验,我们认为基于 GATE 的中文信息抽取系统是对批量的中文信息抽取、英文信息抽取以及中英文混合信息抽取的一次非常有意义的尝试,初步解决了中英文命名实体识别的问题,并为后续的信息抽取研究打下了良好的基础。

引用

页数：77

共 4 条

[1]

数字图书馆中知识技术的研究和应用.[A].张智雄;.中国科协第五届青年学术年会.2004,

[2]

基于RSS的科技信息聚合系统的设计和实现 [J].