基于GATE的中文信息抽取系统的开发和实现

被引:0
作者
李飒
机构
[1] 中国科学院研究生院(文献情报中心)
关键词
知识技术; 中文信息抽取; 英文信息抽取; 中英文混合信息抽取; GATE; ICTCLAS;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
面对网络化、数字化、海量分布、复杂的信息资源,数字图书馆还不能有效地揭示和发现信息之间内在的知识联系。信息抽取技术的出现,使将海量的无结构数据自动转化为有结构信息的过程成为可能。作者在大量技术调研基础上,针对目前国内外信息抽取系统主要针对英文抽取的现状,经过实验分析比较提出了中文信息抽取的解决方案:在 GATE 框架下,开发中文信息抽取插件,其中利用了 ICTCLAS 分词工具。 解决中文信息抽取有 3 个难点,分别是中文分词、中文语料词表和中文命名实体识别。除了利用 ICTCLAS 解决中文分词问题外,作者针对不同领域收集制作了上百兆符合 GATE 格式的中英文语料词表,并针对中文的语言特点撰写了上百条 JAPE 规则来提高中文命名实体识别的准确率。 系统实现后,作者还将基于 GATE 的中文信息抽取系统对 RSS 科技信息聚合系统采集的数据进行了应用:对已经采集到本地的数百条无结构科技新闻进行了信息抽取实验,验证了系统的可用性。 通过实验,我们认为基于 GATE 的中文信息抽取系统是对批量的中文信息抽取、英文信息抽取以及中英文混合信息抽取的一次非常有意义的尝试,初步解决了中英文命名实体识别的问题,并为后续的信息抽取研究打下了良好的基础。
引用
收藏
页数:77
共 4 条
[1]
数字图书馆中知识技术的研究和应用.[A].张智雄;.中国科协第五届青年学术年会.2004,
[2]
基于RSS的科技信息聚合系统的设计和实现 [J].
张会娥 ;
张智雄 ;
林颖 ;
李飒 .
现代图书情报技术, 2005, (07) :60-63
[4]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66