中文Web文本的特征获取与分类

被引:23
作者
许建潮
胡明
机构
[1] 长春工业大学计算机科学与工程学院
[2] 长春工业大学计算机科学与工程学院 长春 吉林大学符号计算与知识工程教育部重点实验室
[3] 长春
[4] 长春 吉林大学符号计算与知识工程教育部重点实验室
关键词
Web挖掘; 遗传算法; 特征抽取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
已有许多方法用于英文网页的特征抽取,相对而言适合于中文网页的方法还不多。该文设计了一个综合考虑位置、频率和词长3个因素的中文Web文本词权重的计算公式,提出了一种用变长度染色体遗传算法提取Web文本特征的方法。实验表明该方法在降低特征矢量维数方面是有效的。
引用
收藏
页码:24 / 25+39 +39
页数:3
相关论文
共 2 条
[1]   Web文本信息的特征获取算法 [J].
刘明吉 ;
王秀峰 ;
饶一梅 ;
黄亚楼 .
小型微型计算机系统, 2002, (06) :683-686
[2]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90