刑事案件文本信息抽取研究

被引:0
作者
陈慧炜
机构
[1] 南京师范大学
关键词
案件文本; 信息抽取; 实体识别; 事件类型识别; 事件元素识别;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
信息抽取是为了满足信息爆炸时代从海量信息中快速有效获取所需信息而出现的一种研究方向。目前,信息抽取在医学、经济、图书等多个领域都得到了成功的运用,而涉足公安领域信息抽取的研究还比较鲜见。 目前在公安领域,案件信息急剧增长,虽然公安办公逐步实现了信息化,但仍存在相当一部分的案件信息,以自由文本形式存在,需要信息抽取技术从中抽取结构化信息,进而存入数据库中供后续的数据挖掘研究。 本文在对案件文本特点进行分析的基础上,以刑事类案件文本为对象进行了信息抽取研究。研究内容主要包括:命名实体识别、刑事案件框架体系构建、案件中原子事件的信息抽取等三个方面。基于领域特点,我们在实验中主要采用知识表辅助机器学习的方法,统计模型选用了条件随机场(CRF)。 命名实体识别是信息抽取的基础。根据公安领域实际需要,我们定义了人名、性别、年龄、籍贯、住址、案件名、货币金额、时间、地点、机构、方式、频次、人数等13种命名实体,根据领域用字特点制作“刑事案件文本常用词表”,帮助快速识别实体或定位实体边界。基于文本特点将实体识别任务分为两层:先识别基本实体,再在此基础上识别案件名实体。 在框架理论的指导下,我们为刑事案件文本构建了框架体系,将案件文本分为基本信息模块和事件信息模块,且事件分化为各种类型的原子事件,为案件文本信息的结构化表示提供了数据结构的支持。 原子事件的信息抽取主要分两步实现:事件类型的识别和事件元素的识别。定义破案事件、抓获事件、报案事件三类原子事件为研究对象。通过人工抽取和《同义词词林》扩展获得的“触发词——事件类型对照表”,过滤得候选事件集,以此辅助CRF模型进行事件类型的识别。为每类事件构造事件模板,分别训练分类器,进行事件元素的识别。 此外,本文整合三方面研究内容,开发了一个刑事案件文本信息抽取原型系统,其以自由形式的刑事案件文本作为输入,输出最终的结构化信息,并保留中间成果以供今后的研究和改进。
引用
收藏
页数:88
共 59 条
[1]
自动识别事件类别的中文事件抽取技术研究.[J].许红磊;陈锦秀;周昌乐;林如琦;杨肖方;.心智与计算.2010, 01
[2]
基于事件框架的主题事件融合研究 [J].
许荣华 ;
吴刚 ;
李培峰 ;
朱巧明 .
计算机应用研究, 2009, 26 (12) :4542-4545
[3]
汉语信息抽取中事件的定位与分类 [J].
邓擘 ;
郑彦宁 ;
樊孝忠 .
情报理论与实践, 2009, 32 (10) :104-107
[4]
中文基本地名识别 [J].
钱小飞 ;
侯敏 .
语言文字应用, 2009, (03) :129-135
[5]
基于条件随机场的中国人名识别方法 [J].
张素香 ;
高国洋 ;
戚银城 .
郑州大学学报(理学版), 2009, 41 (02) :40-43
[6]
非结构化信息抽取关键技术研究探讨 [J].
周法国 ;
王映龙 ;
杨炳儒 ;
宋泽锋 .
计算机工程与应用 , 2009, (14) :1-6+21
[7]
基于多层条件随机场的中文命名实体识别 [J].
胡文博 ;
都云程 ;
吕学强 ;
施水才 .
计算机工程与应用, 2009, 45 (01) :163-165+227
[8]
面向短文本的命名实体识别 [J].
王丹 ;
樊兴华 .
计算机应用, 2009, 29 (01) :143-145+171
[9]
基于条件随机域CRF模型的文本信息抽取 [J].
周晶 ;
吴军华 ;
陈佳 ;
陈沈焰 .
计算机工程与设计, 2008, (23) :6094-6097
[10]
中医医案数据库的数据基础研究 [J].
胡雪琴 ;
周昌乐 ;
李绍滋 .
计算机工程与应用, 2008, 44 (35) :220-222+236