基于DF和CHI的联合特征提取方法及其应用

被引:9
作者
李玉鑑
周兰珍
操卫平
机构
[1] 北京工业大学计算机学院
关键词
文档频率; CHI统计; 联合特征选取; 网页分类;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
分析了与类别信息有关的CHI统计特征选取方法和与类别无关的文档频率特征选取方法,在此基础上提出文档频率与CHI统计相结合的特征提取方法,以选取分类能力强的词项特征,从而提高网页分类效果.以该联合特征提取方法为基础构建的网页分类系统,在参加SEWM2007分类评测的8个代表队中,取得Macro-F1值排名第3的成绩.
引用
收藏
页码:995 / 1000
页数:6
相关论文
共 5 条
[1]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[2]   几种典型特征选取方法在中文网页分类上的效果比较 [J].
单松巍 ;
冯是聪 ;
李晓明 ;
不详 .
计算机工程与应用 , 2003, (22) :146-148
[3]   基于字频向量的中文文本自动分类系统 [J].
王梦云 ;
曹素青 .
情报学报, 2000, (06) :644-649
[4]  
Feature selection for text categorization on imbalanced data[J] . Zhaohui Zheng,Xiaoyun Wu,Rohini Srihari.ACM SIGKDD Explorations Newsletter . 2004 (1)
[5]  
Introduction to Modem Information Retrieval .2 Salton G. . 1983