基于同义实体扩展的冗余信息去重

被引：6

作者：

姜孟晋

周雅倩

黄萱菁

机构：

[1] 复旦大学计算机科学技术学院

来源：

中文信息学报 | 2012年 / 01期

关键词：

信息抽取; 信息去重; 命名实体;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

冗余信息去重是信息抽取中的重要任务,对于多元素表示的信息,该文针对以往对各个元素统一处理所存在的问题,将信息元素进行分类,由各类元素的冗余判断难易出发,归纳相似度计算方法,并将各相似度作为特征,通过分类器判断信息间的冗余性。同时对最难判断的命名实体信息元素,该文从其他易判断相似性的信息元素出发,通过同义命名实体的自动扩展,提高信息去重的效果。

引用

页码：42 / 50

页数：9

共 4 条

[1]

中文词语语义相似度计算——基于《知网》2000 [J].

李峰 ;

李芳 .

中文信息学报, 2007, (03) :99-105

[2]

一种新的句子相似度度量及其在文本自动摘要中的应用 [J].

张奇 ;

黄萱菁 ;

吴立德 .

中文信息学报, 2005, (02) :93-99

[3]

基于词类串的汉语句子结构相似度计算方法 [J].

王荣波 ;

池哲儒 .

中文信息学报, 2005, (01) :21-29

[4]

Algorithms for ScoringCoreference Chains Amit Bagga;Breck Baldwin; Proceedings of The FirstInternational Conference on Language Resources andEvaluation Workshop on Linguistics Coreference 1998,

← 1 →