不同程度的监督机制在自动文本分类中的应用

被引:8
作者
丁磊
钱云涛
机构
[1] 浙江大学计算机学院,浙江大学计算机学院杭州,杭州
关键词
文本分类; 监督学习; 非监督学习; 半监督学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
自动文本分类技术涉及信息检索、模式识别及机器学习等领域。本文以监督的程度为线索 ,综述了分属全监督 ,非监督以及半监督学习策略的若干方法—NBC(Na veBayesClassifier) ,FCM (FuzzyC Means) ,SOM (Self OrganizingMap) ,ssFCM (semi supervisedFuzzyC Means)和gSOM(guidedSelf OrganizingMap) ,并应用于文本分类中。其中 ,gSOM是我们在SOM基础上发展得到的半监督形式。并以Reuters 2 15 78为语料 ,研究了监督程度对分类效果的影响 ,从而提出了对实际文本分类工作的建议。
引用
收藏
页码:65 / 68
页数:4
相关论文
共 2 条
[1]
An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[2]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,