Web文本挖掘中数据预处理技术研究

被引：13

作者：

胡静

蒋外文

朱华

机构：

[1] 中南大学信息科学与工程学院

来源：

现代计算机(专业版) | 2009年 / 03期

关键词：

Web文本挖掘; 向量空间模型; 中文分词; 特征选择;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

数据预处理是将原始的Web文档转化为适合进行数据挖掘的中间表示形式,在Web文本挖掘过程中起着至关重要的作用。介绍Web文本挖掘的概念及Web文本挖掘的一般流程,对Web文本挖掘中的特征表示、中文分词、特征选择等数据预处理关键技术进行详尽的分析。

引用

页码：48 / 51

页数：4

共 6 条

[1]

A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11

[2] Web文本挖掘中的特征选取方法研究 [J].

和亚丽 ;

陈立潮 .

计算机工程, 2005, (05) :181-182+190

[3] Web文本挖掘中的一种中文分词算法研究及其实现 [J].

苏芳仲 ;

林世平 .

福州大学学报(自然科学版), 2004, (S1) :67-71

[4] Web挖掘的体系研究 [J].

李亚飞 ;

刘业政 .

合肥工业大学学报(自然科学版), 2004, (03) :305-309

[5] Web文本挖掘技术研究 [J].

王继成 ;

潘金贵 ;

张福炎 .

计算机研究与发展, 2000, (05) :513-520

[6]

A Comparative Study on Feature Selec- tion in Text Categorization..Yang Y;Pedersen J;.Proceedings of the 4th Inter- national Conference on Machine Learning.1997,

← 1 →