一种改进的文本网页分类特征选择方法

被引:8
作者
李粤
李星
刘辉
许静芳
机构
[1] 清华大学电子工程系
[2] 清华大学电子工程系 北京
[3] 北京
关键词
文本网页分类; 特征选择; X2统计量; 互信息量; 联合特征选择;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
网页分类是网络信息检索研究的关键技术之一。文中针对分类技术中的特征选择方法展开研究。在分析、比较常用的文本分类特征选择方法基础上 ,提出了一种联合特征选择方法。该方法将已有的X2 统计方法和互信息方法综合起来 ,在标准文本网页数据集分类实验中 ,综合查全率和查准率得到明显的提高。该选择方法已应用于“网络指南针”系统大规模文本网页分类中
引用
收藏
页码:119 / 121
页数:3
相关论文
共 5 条
[1]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[2]   中文网页自动分类新算法 [J].
张俐 ;
李星 ;
陆大 .
清华大学学报(自然科学版), 2000, (01) :39-42
[3]   On machine learning methods for Chinese document categorization [J].
He, J ;
Tan, AH ;
Tan, CL .
APPLIED INTELLIGENCE, 2003, 18 (03) :311-322
[4]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[5]  
Feature selection and feature extraction for text categorization .2 Lewis DD. Proc. of Speech and Natural Language Workshop, February . 1992