文本自动分类系统文本预处理方法的研究

被引:14
作者
周钦强
孙炳达
王义
机构
[1] 广东工业大学自动化学院
[2] 广东技术师范学院
[3] 广东工业大学自动化学院 广东广州
[4] 广东广州
关键词
文本分类; 文本预处理; 停用词; 中文分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。
引用
收藏
页码:85 / 86
页数:2
相关论文
empty
未找到相关数据