“天网”目录导航服务研究

被引:8
作者
冯是聪
单松巍
龚笔宏
张志刚
李晓明
机构
[1] 北京大学计算机科学技术系,北京大学计算机科学技术系,北京大学计算机科学技术系,北京大学计算机科学技术系,北京大学计算机科学技术系北京,北京,北京,北京,北京
关键词
搜索引擎; 目录导航; Web挖掘; 中文网页分类;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集 ,这是实现中文网页自动分类的前提和基础 ;②针对中文网页信息的自身特性以及CHI方法的固有缺陷 ,提出一种自动清除“噪音”的特征选取算法 ,并实现了一个能够处理海量中文网页的分类器 实验结果表明该分类器有较高的分类质量 ,满足了搜索引擎目录导航服务的要求
引用
收藏
页码:653 / 659
页数:7
相关论文
共 12 条
[1]  
Improvedrele vancerankinginwebgather. LeiMing,WangJianyong,ChenBaojueetal. JournalofComputerScienceandTechnology . 2001
[2]  
Websearchen gine:Characteristicsofuserbehaviorsandtheirimplication. WangJianyong,ShanSongwei,LeiMingetal. Sci enceinChinaSeriesF . 2001
[3]  
http://cn.yahoo.com . 2003
[4]  
GooglesearchengineWebsitshttp://www.google.com . 2003
[5]  
Ontology supportedandontology drivenconceptualnavigationonthe. MCrampes,SRanwez. WorldWideWebThe11thACMConfonHypertextandHypermedia . 2000
[6]  
AdatasetofChineseWebpagesanditscategorization. FengShicong,ShanSongwei,ZhangZhigongetal. ProcoftheCross straitInformationTechnologyWorkshop . 2002
[7]  
Astudyonthresholdingstrategiesfortextcategoriza tion. YYang. ACMSIGIRConfonResearchandDevelopmentinInforma tionRetrieval . 2001
[8]  
Acomparativestudyonfeatureselectionintextcategorization. YYang,JanOPedersen. The14thInt’’lConfonMachineLearning . 1997
[9]  
TianwangsearchengineWebsits http://e.pku.edu.cn . 1997
[10]  
Dataminingforhypertext:Atutorialsurvey. SChakrabarti. ACMSIGKDDExplorations . 2000