一种基于词序信息的自动文摘方法

被引：6

作者：

任纪生

张弛

王作英

机构：

[1] 清华大学电子工程系

来源：

计算机工程与设计 | 2007年 / 01期

关键词：

自动文摘; 词序; 向量空间模型; 相似度; 权重;

D O I：

10.16208/j.issn1000-7024.2007.01.059

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

自动文摘技术应尽可能获取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序。提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动,采用基于聚类的方法实现了词序组的向量表示并以此刻画句子、段落、文本,通过线性插值将基于不同长度词序组的相似度结果予以综合。同时,提出了新的基于含词序组重要性累计度的句子或段落的权重指标。实验证明利用词序信息可有效提高自动文摘质量。

引用

页码：178 / 181

页数：4