学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
文本自动分类系统文本预处理方法的研究
被引:14
作者
:
周钦强
论文数:
0
引用数:
0
h-index:
0
机构:
广东工业大学自动化学院
周钦强
孙炳达
论文数:
0
引用数:
0
h-index:
0
机构:
广东工业大学自动化学院
孙炳达
王义
论文数:
0
引用数:
0
h-index:
0
机构:
广东工业大学自动化学院
王义
机构
:
[1]
广东工业大学自动化学院
[2]
广东技术师范学院
[3]
广东工业大学自动化学院 广东广州
[4]
广东广州
来源
:
计算机应用研究
|
2005年
/ 02期
关键词
:
文本分类;
文本预处理;
停用词;
中文分词;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。
引用
收藏
页码:85 / 86
页数:2
相关论文
未找到相关数据
未找到相关数据