共 9 条
开放式地理实体关系抽取的Bootstrapping方法
被引:27
作者:
余丽
[1
,2
]
陆锋
[1
,3
]
刘希亮
[1
]
机构:
[1] 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室
[2] 中国科学院大学
[3] 江苏省地理信息资源开发与利用协同创新中心
来源:
关键词:
文本挖掘;
地理实体;
关系抽取;
定量评价;
bootstrapping;
D O I:
暂无
中图分类号:
P208 [测绘数据库与信息系统];
学科分类号:
070503 ;
081603 ;
0818 ;
081802 ;
摘要:
从网络文本中抽取地理实体间空间关系和语义关系要求高时效性和强鲁棒性。本文提出一种开放式地理实体关系的自动抽取方法,通过bootstrapping技术统计词语的词性、位置和距离特征来计算语境中词语权值,据此确定描述地理实体关系的关键词,最终组织成结构化实例,并使用百度百科和Stanford CoreNLP开展了试验。研究结果表明,本文方法能自动挖掘自然语言的部分词法特征,无须领域专家知识和大规模标注语料,适用于未知关系类型的信息抽取任务;较之经典的Frequency、TFIDF和PPMI频率统计方法,精度和召回率分别提升约5%和23%。
引用
收藏
页码:616 / 622
页数:7
相关论文