基于统计的中文文本主题自动提取研究

被引:8
作者
张清军
朱才连
机构
[1] 中国科学院测量与地球物理研究所,中国科学院测量与地球物理研究所湖北武汉,湖北武汉
关键词
主题自动提取; 特征词; 加权函数;
D O I
10.15961/j.jsuese.2004.03.022
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文本主题自动提取是一种很有实用价值的技术,它可以有效地浓缩整个web页面,解决无线网络终端由于显示屏太小而无法显示整个网页的难题。总结了目前有关文本主题提取方面的研究成果,设计了一个特征词加权函数,在此函数中考虑了词所跨的段落数因子,同时采用非线性函数描述词长因子和词所跨的段落数因子的作用,并将加权函数应用于主题自动提取。实现了一个中文主题自动提取系统原型,通过对文本集的测试验证了加权函数的有效性。
引用
收藏
页码:97 / 100
页数:4
相关论文
共 7 条
[1]   一种用于主题提取的非线性加权方法 [J].
韩客松 ;
王永成 .
情报学报, 2000, (06) :650-653
[2]   可应用于互联网的自学习中文关键词抽取算法 [J].
于琨 ;
糜仲春 ;
蔡庆生 .
中国科学技术大学学报, 2002, (03) :126-129
[3]   汉语文本特征词的抽取方法 [J].
薛翠芳 ;
郭炳炎 .
情报学报, 2000, (03) :242-247
[4]   联想树分析法及其在无词库中文自动标引中的应用 [J].
顾立帆 ;
王永成 .
情报学报, 1992, 11 (05) :354-360
[5]   三个层面的中文文本主题自动提取研究 [J].
韩客松 ;
王永成 ;
沈洲 ;
吴芳芳 .
中文信息学报, 2001, (04) :20-27
[6]   中文全文标引的主题词标引和主题概念标引方法 [J].
韩客松 ;
王永成 .
情报学报, 2001, (02) :212-216
[7]   Web页面中文文本主题的自动提取研究 [J].
韩客松 ;
王永成 ;
滕伟 .
情报学报, 2001, (02) :217-223