中文Web文本的特征获取与分类

被引：23

作者：

许建潮

胡明

机构：

[1] 长春工业大学计算机科学与工程学院

[2] 长春工业大学计算机科学与工程学院长春吉林大学符号计算与知识工程教育部重点实验室

[3] 长春

[4] 长春吉林大学符号计算与知识工程教育部重点实验室

来源：

关键词：

Web挖掘; 遗传算法; 特征抽取;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

已有许多方法用于英文网页的特征抽取,相对而言适合于中文网页的方法还不多。该文设计了一个综合考虑位置、频率和词长3个因素的中文Web文本词权重的计算公式,提出了一种用变长度染色体遗传算法提取Web文本特征的方法。实验表明该方法在降低特征矢量维数方面是有效的。

引用

页码：24 / 25+39 +39

页数：3