一种面向中文敏感网页识别的文本分类方法

被引:4
作者
陈欣
张菁
李晓光
卓力
机构
[1] 北京工业大学信号与信息处理研究室
基金
北京市自然科学基金;
关键词
中文敏感网页识别; 新词识别; 停用词表建立; CHI统计; 朴素贝叶斯分类器;
D O I
10.19708/j.ckjs.2011.05.006
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分。为丰富中文分词词库,提出了一种以词频统计为主、以人工判决为辅并标注词性的新词识别算法;提出了一种停用词表的建立算法,据此建立了含300个停用词的停用词表;采用开方拟合检验统计量方法作为特征选择方法,并确定了400维的特征词库。根据开方拟合统计量特征选择方法与朴素贝叶斯分类器的特点,加入待分类网页文本中所含特征项数目与特征集维数的比值以及特征项数目与文本所含词汇数目的比值两个影响因子,对朴素贝叶斯分类器进行了改进。考虑到不同的人群对敏感概念的主观理解差异较大,将待识别网页的敏感度值作为分类器的输出。实验结果表明,与现有的文本分类方法相比,所提出的文本分类方法可以获得更好的识别效果。
引用
收藏
页码:27 / 31+40 +40
页数:6
相关论文
共 2 条
[1]
TO DECODE SHORT CRYPTOGRAMS [J].
HART, GW .
COMMUNICATIONS OF THE ACM, 1994, 37 (09) :102-108
[2]
一种高性能的两类中文文本分类方法 [J].
樊兴华 ;
孙茂松 .
计算机学报, 2006, (01) :124-131