基于统计分词的中文网页分类

被引:15
作者
黄科
马少平
机构
[1] 清华大学计算机科学与技术系智能技术与系统国家重点实验室
关键词
文本分类; 统计分词; 机器学习; 计算机网络;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词不断出现 ,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明 ,在统计阈值选择合适的时候 ,通过构建的词表进行分词进而进行网页分类 ,能有效地提高网页分类的分类精度。此外 ,本文还分析了单字和分词对于文本分类的不同影响及其原因。
引用
收藏
页码:25 / 31
页数:7
相关论文
共 3 条
[1]   自然语言处理系统中自动分词的研究 [J].
丁丰 ;
董娜 ;
林碧琴 ;
袁保宗 .
北方交通大学学报, 1999, (06) :31-33
[2]   汉语自动分词方法 [J].
殷建平 .
计算机工程与科学, 1998, (03) :62-68
[3]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90