基于局部主题判定与抽取的多文档文摘技术

被引:8
作者
秦兵
刘挺
李生
机构
[1] 哈尔滨工业大学计算机科学与技术学院
[2] 哈尔滨工业大学计算机科学与技术学院 哈尔滨
关键词
多文档文摘; 局部主题; 聚类;
D O I
10.16383/j.aas.2004.06.013
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出了一个通过对同一主题的多文档集合内局部主题的判定和抽取生成多文档文摘的方法.首先在对多文档集合中句子依存分析和语义分析的基础上进行相似度计算,将相似句子经过聚类形成多文档集合内不同的局部主题,然后进行每个局部主题中质心句的抽取和排序,生成多文挡文摘.该方法实现了文摘长度随文档内容自动确定,从而保证了文摘中包含的信息的全面和简洁.最后文中还给出了多文档文摘的评价方法和实验结果,文摘的平均精确率和平均压缩率分别为71.4%和25.2%.
引用
收藏
页码:905 / 910
页数:6
相关论文
empty
未找到相关数据