一种基于词序信息的自动文摘方法

被引:6
作者
任纪生
张弛
王作英
机构
[1] 清华大学电子工程系
关键词
自动文摘; 词序; 向量空间模型; 相似度; 权重;
D O I
10.16208/j.issn1000-7024.2007.01.059
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
自动文摘技术应尽可能获取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序。提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动,采用基于聚类的方法实现了词序组的向量表示并以此刻画句子、段落、文本,通过线性插值将基于不同长度词序组的相似度结果予以综合。同时,提出了新的基于含词序组重要性累计度的句子或段落的权重指标。实验证明利用词序信息可有效提高自动文摘质量。
引用
收藏
页码:178 / 181
页数:4
相关论文
共 2 条
[1]
自动文摘方法分析 [J].
金旭 ;
杨炳儒 ;
菅志刚 .
计算机应用研究, 2004, (09) :5-6+11
[2]
自动文摘综述 [J].
郭燕慧 ;
钟义信 ;
马志勇 ;
姚均勇 .
情报学报, 2002, (05) :582-591