中文网页自动分类新算法

被引:15
作者
张俐
李星
陆大
机构
[1] 清华大学电子工程系!北京
关键词
文本分类; 搜索引擎; 超文本描述语言(HTML);
D O I
10.16511/j.cnki.qhdxxb.2000.01.012
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
为了有效地组织因特网上极其丰富的信息资源 ,通过分析中文和中文网页的特点 ,提出了一种新的中文网页的自动分类算法。这种算法主要利用字间的相关信息、词频以及页面的标记信息等 ,提取网页特征 ,并计算可调的词频加权参数 ,然后通过本类和非本类训练 ,建立专家数据库。实验表明 ,该算法可以获得 80 %以上的网页分类准确率
引用
收藏
页码:39 / 42
页数:4
相关论文
共 9 条
[1]  
Context- sensitive learningmethods for text categorization. William W C,Yoram S. NineteenthAnnual International ACM SIGIR Conference onResearch and Developm ent in Information Retrieval . 1 996
[2]  
Net -compass, a search engine for Chinese web pages. Zhang Li,Li Xing. The First AEARU Workshop on Web Technology . 1998
[3]  
Exponentiated GradientVersus Gradient Decent for L inear Predictors. Kivinen J,Warmuth M K. Technical Report UCSC- CRL - 94- 1 6 ,basking Centerfor Computer Engineering and Information Sciences,University of California,Santa Cruz,CA . 1 994
[4]  
Trainingalgorithms for linear classifiers[A]. David L,Robert S,James P C,et al. NineteenthAnnual International ACM SIGIR Conference onResearch and Developm ent in Information Retrieval . 1 996
[5]  
Combining classifiers in text categorization. Leah S L,Croft W B. Hans-Peter Frei , Donna Harman, Peter Schanble. Nineteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C],Zurich, Switzerland: ACM Press . 1996
[6]  
Relevance feedback in informationretrieval. Rocchio J. The SMART RetrievalSystem :Experim ents in Automatic DocumentProcessing . 1 971
[7]  
Adaptive Signal Processing. Widrow B,Stearns S D. . 1 985
[8]  
Duda,R. O.,Hart,P. E. Pattern Classification and Scene Analysis . 1973
[9]  
Using probabilistic models of document retrieval without relevance feedback. Croft W B,Harper D J. Journal of Documentation . 1979