基于句子关系图的网页文本主题句抽取

被引:8
作者
何维
王宇
机构
[1] 大连理工大学管理学院
关键词
主题句; 句子关系图; 句子相似度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对网页文本结构信息少、噪声大的特点,将句子看作点,将句子间的相似性看作边,用句子关系图描述文本中句子间的关系。抽取文本主题句的任务转化为搜索图中边最多的点。利用语义词典,将句子相似度定义为句子语义相似度,解决短文本词频相似度低的问题。选用互联网公开语料进行测试,抽取的主题句达到平均80.6%的可接受性。
引用
收藏
页码:57 / 61
页数:5
相关论文
共 9 条
[1]   中文博客主题情感句自动抽取研究 [J].
孙宏纲 ;
陆余良 .
计算机工程与应用 , 2008, (20) :165-168+221
[2]   基于加权信息论的突发事件新闻主题抽取方法 [J].
陈炯 ;
张永奎 .
计算机应用, 2008, (S1) :150-151
[3]   基于句子相似度计算的信息抽取 [J].
廉站俊 ;
吕学强 ;
张玉杰 ;
施水才 .
现代图书情报技术, 2007, (06) :38-41
[4]   基于综合方法的文本主题句的自动抽取 [J].
张云涛 ;
龚玲 ;
王永成 .
上海交通大学学报, 2006, (05) :771-774+782
[5]   一种基于字同现频率的汉语文本主题抽取方法 [J].
马颖华 ;
王永成 ;
苏贵洋 ;
张宇萌 .
计算机研究与发展, 2003, (06) :874-878
[6]   汉语文本结构的自动分析 [J].
薛翠芳 ;
郭炳炎 .
情报学报, 2000, (04) :319-325
[7]  
一种无词典的从Web新闻页面抽取主题的算法[J]. 蔡巍,王永成,尹中航.情报学报. 2008 (01)
[8]   Automatic text decomposition and structuring [J].
Salton, G ;
Allan, J ;
Singhal, A .
INFORMATION PROCESSING & MANAGEMENT, 1996, 32 (02) :127-138
[9]  
文本分类语料库 精简版[tar.gz格式]. 搜狗实验室. http//www.sogou.com/labs/dl/c.html . 2008