开放式地理实体关系抽取的Bootstrapping方法

被引:27
作者
余丽 [1 ,2 ]
陆锋 [1 ,3 ]
刘希亮 [1 ]
机构
[1] 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室
[2] 中国科学院大学
[3] 江苏省地理信息资源开发与利用协同创新中心
关键词
文本挖掘; 地理实体; 关系抽取; 定量评价; bootstrapping;
D O I
暂无
中图分类号
P208 [测绘数据库与信息系统];
学科分类号
070503 ; 081603 ; 0818 ; 081802 ;
摘要
从网络文本中抽取地理实体间空间关系和语义关系要求高时效性和强鲁棒性。本文提出一种开放式地理实体关系的自动抽取方法,通过bootstrapping技术统计词语的词性、位置和距离特征来计算语境中词语权值,据此确定描述地理实体关系的关键词,最终组织成结构化实例,并使用百度百科和Stanford CoreNLP开展了试验。研究结果表明,本文方法能自动挖掘自然语言的部分词法特征,无须领域专家知识和大规模标注语料,适用于未知关系类型的信息抽取任务;较之经典的Frequency、TFIDF和PPMI频率统计方法,精度和召回率分别提升约5%和23%。
引用
收藏
页码:616 / 622
页数:7
相关论文
共 9 条
[1]   面向中文文本的事件时空与属性信息解析方法研究 [J].
张春菊 .
测绘学报, 2015, (05) :590-590
[2]   开放式信息抽取研究进展 [J].
杨博 ;
蔡东风 ;
杨华 .
中文信息学报, 2014, (04) :1-11+36
[3]   大数据与广义GIS [J].
陆锋 ;
张恒才 .
武汉大学学报(信息科学版), 2014, 39 (06) :645-654
[4]   微博客蕴含交通信息的提取 [J].
张恒才 ;
陆锋 ;
陈洁 .
中国图象图形学报 , 2013, (01) :123-129
[5]   中文文本的地理空间关系标注 [J].
张雪英 ;
张春菊 ;
朱少楠 .
测绘学报, 2012, 41 (03) :468-474
[6]   开放式文本信息抽取 [J].
赵军 ;
刘康 ;
周光有 ;
蔡黎 .
中文信息学报, 2011, 25 (06) :98-110
[7]   一种本体驱动的地理空间事件相关信息自动检索方法 [J].
刘纪平 ;
栗斌 ;
石丽红 ;
王振峰 ;
陶坤旺 .
测绘学报, 2011, (04) :502-508
[8]   空间查询中自然语言空间关系与度量空间关系的转换方法研究:以面目标为例 [J].
邓敏 ;
徐锐 ;
李志林 ;
祁华斌 .
测绘学报, 2009, 38 (06) :527-531
[9]   Modelling vague places with knowledge from the Web [J].
Jones, C. B. ;
Purves, R. S. ;
Clough, P. D. ;
Joho, H. .
INTERNATIONAL JOURNAL OF GEOGRAPHICAL INFORMATION SCIENCE, 2008, 22 (10) :1045-1065