Web文本挖掘中数据预处理技术研究

被引:13
作者
胡静
蒋外文
朱华
机构
[1] 中南大学信息科学与工程学院
关键词
Web文本挖掘; 向量空间模型; 中文分词; 特征选择;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
数据预处理是将原始的Web文档转化为适合进行数据挖掘的中间表示形式,在Web文本挖掘过程中起着至关重要的作用。介绍Web文本挖掘的概念及Web文本挖掘的一般流程,对Web文本挖掘中的特征表示、中文分词、特征选择等数据预处理关键技术进行详尽的分析。
引用
收藏
页码:48 / 51
页数:4
相关论文
共 6 条
[1]  
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[2]   Web文本挖掘中的特征选取方法研究 [J].
和亚丽 ;
陈立潮 .
计算机工程, 2005, (05) :181-182+190
[3]   Web文本挖掘中的一种中文分词算法研究及其实现 [J].
苏芳仲 ;
林世平 .
福州大学学报(自然科学版), 2004, (S1) :67-71
[4]   Web挖掘的体系研究 [J].
李亚飞 ;
刘业政 .
合肥工业大学学报(自然科学版), 2004, (03) :305-309
[5]   Web文本挖掘技术研究 [J].
王继成 ;
潘金贵 ;
张福炎 .
计算机研究与发展, 2000, (05) :513-520
[6]  
A Comparative Study on Feature Selec- tion in Text Categorization..Yang Y;Pedersen J;.Proceedings of the 4th Inter- national Conference on Machine Learning.1997,