基于同义实体扩展的冗余信息去重

被引:6
作者
姜孟晋
周雅倩
黄萱菁
机构
[1] 复旦大学计算机科学技术学院
关键词
信息抽取; 信息去重; 命名实体;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
冗余信息去重是信息抽取中的重要任务,对于多元素表示的信息,该文针对以往对各个元素统一处理所存在的问题,将信息元素进行分类,由各类元素的冗余判断难易出发,归纳相似度计算方法,并将各相似度作为特征,通过分类器判断信息间的冗余性。同时对最难判断的命名实体信息元素,该文从其他易判断相似性的信息元素出发,通过同义命名实体的自动扩展,提高信息去重的效果。
引用
收藏
页码:42 / 50
页数:9
相关论文
共 4 条
[1]
中文词语语义相似度计算——基于《知网》2000 [J].
李峰 ;
李芳 .
中文信息学报, 2007, (03) :99-105
[2]
一种新的句子相似度度量及其在文本自动摘要中的应用 [J].
张奇 ;
黄萱菁 ;
吴立德 .
中文信息学报, 2005, (02) :93-99
[3]
基于词类串的汉语句子结构相似度计算方法 [J].
王荣波 ;
池哲儒 .
中文信息学报, 2005, (01) :21-29
[4]
Algorithms for ScoringCoreference Chains Amit Bagga;Breck Baldwin; Proceedings of The FirstInternational Conference on Language Resources andEvaluation Workshop on Linguistics Coreference 1998,