学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于主题的Web文档聚类研究
被引:29
作者
:
孙学刚
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系
孙学刚
陈群秀
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系
陈群秀
马亮
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系
马亮
机构
:
[1]
智能技术与系统国家重点实验室清华大学计算机科学与技术系
来源
:
中文信息学报
|
2003年
/ 03期
关键词
:
计算机应用;
中文信息处理;
Web文档聚类;
OPTICS算法;
特征提取;
K近邻准则;
二次特征提取和聚类的方法;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚类的方法 ,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时 ,实现了较高质量的Web文档聚类。
引用
收藏
页码:21 / 26
页数:6
相关论文
共 2 条
[1]
无词典高频字串快速提取和统计算法研究
[J].
论文数:
引用数:
h-index:
机构:
韩客松
;
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海
王永成
;
陈桂林
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海
陈桂林
.
中文信息学报,
2001,
(02)
:23
-30
[2]
模式识别[M]. 清华大学出版社 , 边肇祺等编著, 2000
←
1
→
共 2 条
[1]
无词典高频字串快速提取和统计算法研究
[J].
论文数:
引用数:
h-index:
机构:
韩客松
;
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海
王永成
;
陈桂林
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海
陈桂林
.
中文信息学报,
2001,
(02)
:23
-30
[2]
模式识别[M]. 清华大学出版社 , 边肇祺等编著, 2000
←
1
→