面对网络化、数字化、海量分布、复杂的信息资源,数字图书馆还不能有效地揭示和发现信息之间内在的知识联系。信息抽取技术的出现,使将海量的无结构数据自动转化为有结构信息的过程成为可能。作者在大量技术调研基础上,针对目前国内外信息抽取系统主要针对英文抽取的现状,经过实验分析比较提出了中文信息抽取的解决方案:在 GATE 框架下,开发中文信息抽取插件,其中利用了 ICTCLAS 分词工具。
解决中文信息抽取有 3 个难点,分别是中文分词、中文语料词表和中文命名实体识别。除了利用 ICTCLAS 解决中文分词问题外,作者针对不同领域收集制作了上百兆符合 GATE 格式的中英文语料词表,并针对中文的语言特点撰写了上百条 JAPE 规则来提高中文命名实体识别的准确率。
系统实现后,作者还将基于 GATE 的中文信息抽取系统对 RSS 科技信息聚合系统采集的数据进行了应用:对已经采集到本地的数百条无结构科技新闻进行了信息抽取实验,验证了系统的可用性。
通过实验,我们认为基于 GATE 的中文信息抽取系统是对批量的中文信息抽取、英文信息抽取以及中英文混合信息抽取的一次非常有意义的尝试,初步解决了中英文命名实体识别的问题,并为后续的信息抽取研究打下了良好的基础。