多文档自动文摘中的特征组合优化

被引:6
作者
刘茂福
李淑君
金可佳
张晓龙
机构
[1] 武汉科技大学计算机科学与技术学院
关键词
tf*idf; 句子位置; 标题句相似度; 句子长度; 组合优化;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在分析当前多文档自动文摘方法中使用较多的特征基础上,提出了一种特征组合优化模型。该模型选用tf*idf,句子位置及与标题句相似度来判断句子包含信息的重要程度。并加入了句子长度特征解决由tf*idf特征引起的长度偏长的句子占优势的问题,采用这4个特征来判断句子的重要性。并给每个特征指定权重来解决优化问题,实验结果表明特征组合优化模型在多文档自动文摘中的可行性。
引用
收藏
页码:59 / 63
页数:5
相关论文
共 6 条
[1]   自动文摘基集语句的提取与润色的数学模型 [J].
吴岩 ;
李秀坤 .
计算机应用研究, 2007, (05) :52-55
[2]   多文档自动文摘综述 [J].
秦兵 ;
刘挺 ;
李生 .
中文信息学报, 2005, (06) :15-22+58
[3]   一种新的句子相似度度量及其在文本自动摘要中的应用 [J].
张奇 ;
黄萱菁 ;
吴立德 .
中文信息学报, 2005, (02) :93-99
[4]   基于概念统计的英文自动文摘研究 [J].
万敏 ;
罗振声 ;
季姮 ;
高小云 .
计算机工程与应用, 2002, (24) :7-9+16
[5]   自动文摘的四种主要方法 [J].
刘挺 ;
王开铸 .
情报学报, 1999, (01) :10-19
[6]  
文摘的概念与方法.[M].[美]哈罗德·博科等 著.书目文献出版社.1991,