基于综合方法的文本主题句的自动抽取

被引:33
作者
张云涛 [1 ]
龚玲 [2 ]
王永成 [2 ]
机构
[1] 上海交通大学网络信息中心
[2] 上海交通大学电子信息与电气工程学院
关键词
主题句; 主题抽取; 文本压缩;
D O I
10.16183/j.cnki.jsjtu.2006.05.014
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出了基于综合方法的主题句的提取方法,并着重讨论了文本主题概念的提取以及相应的权值体系.根据概念间的相互关系,对同义概念进行语义归并,对上下位概念进行语义聚焦,模拟人工标引专家在分析文本主题时的“兼顾各个方面的主题,同时又有所侧重”的原则.在调整文本主题上下位概念的权值时,既考虑下位概念对上位概念的增强作用,同时又考虑到这种调整不影响整个文本主题的分布,从而更精确地抽取出文本的主题概念.采用多种权重度量方式,综合评估句子反映主题的价值.在此基础上,采用主题句选择算法将文本的主题数与所抽取的主题句的数量关联在一起,保证每一个主要的主题都有对应的主题句被选中,并解决主题句的去重问题,从而进一步提高所抽出主题句的主题覆盖性和概括性.
引用
收藏
页码:771 / 774+782 +782
页数:5
相关论文
共 3 条
[1]
基于领域本体和知识推理的语义互联网应用 [J].
顾慧翔 ;
俞勇 .
上海交通大学学报, 2004, (04) :583-585
[2]
自适应确定摘要长度 [J].
王建会 ;
胡运发 ;
李荣陆 .
计算机研究与发展, 2004, (03) :399-406
[3]
一种篇章结构指导的中文Web文档自动摘要方法 [J].
王继成 ;
武港山 ;
周源远 ;
张福炎 .
计算机研究与发展, 2003, (03) :398-405