共 7 条
基于统计的中文文本主题自动提取研究
被引:8
作者:
张清军
朱才连
机构:
[1] 中国科学院测量与地球物理研究所,中国科学院测量与地球物理研究所湖北武汉,湖北武汉
来源:
关键词:
主题自动提取;
特征词;
加权函数;
D O I:
10.15961/j.jsuese.2004.03.022
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
文本主题自动提取是一种很有实用价值的技术,它可以有效地浓缩整个web页面,解决无线网络终端由于显示屏太小而无法显示整个网页的难题。总结了目前有关文本主题提取方面的研究成果,设计了一个特征词加权函数,在此函数中考虑了词所跨的段落数因子,同时采用非线性函数描述词长因子和词所跨的段落数因子的作用,并将加权函数应用于主题自动提取。实现了一个中文主题自动提取系统原型,通过对文本集的测试验证了加权函数的有效性。
引用
收藏
页码:97 / 100
页数:4
相关论文