基于语料和基于标引经验的自动分类模式比较

被引:10
作者
薛春香 [1 ]
夏祖奇 [2 ]
侯汉清 [1 ]
机构
[1] 南京农业大学信息科技学院
[2] 趋势科技中国研发中心
关键词
自动分类; 自动标引; 语料库; 知识库; 《中国图书馆分类法》;
D O I
暂无
中图分类号
G254.361 [自动标引];
学科分类号
1205 ; 120501 ;
摘要
从原理、系统设计、知识库构建、分类算法、性能等方面对自动分类的两种模式———基于训练语料和基于人工标引经验———进行介绍和比较,这两种分类模式都具有一定的可行性。基于训练语料的自动分类模式完全依靠机器学习从训练集中发现类目的特征,数学论证充分,易于维护,比较适合于面向行业和主题的粗分类,但是过分强调了机器学习的效能,忽略了人工智力劳动成果的利用,训练过程和分类过程运算量,算法复杂;而基于标引经验的自动分类模式利用简单的统计学方法从书目数据库中挖掘人工标引经验,适用于面向体系分类法的详细分类,分类算法简单,运算量小,但过分依赖经验,缺乏有说服力的数学证明。知识库的完备性和合理性是影响两者分类效能的主要因素,是两者面临的共同问题。
引用
收藏
页码:85 / 92
页数:8
相关论文
共 7 条
[1]   中文期刊论文自动标引加权设计研究 [J].
赵妍 ;
侯汉清 ;
耿金玉 ;
叶常妍 ;
何群 .
新世纪图书馆, 2004, (01) :40-43
[2]   网络环境下的知识组织系统——编者的话 [J].
曾蕾 .
现代图书情报技术, 2004, (01) :2-3
[3]   中文Web概念挖掘系统设计与测评 [J].
章成志 ;
侯汉清 ;
丁璇 .
上海交通大学学报, 2003, (S1) :207-211
[4]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[5]   自动分类研究现状与展望 [J].
成颖 ;
史九林 .
情报学报, 1999, (01) :20-26
[6]   关于大规模真实文本语料库的几点理论思考 [J].
张普 .
语言文字应用, 1999, (01) :35-44
[7]  
概念空间——定义、意义和局限[J]. 邓珞华.情报学报. 2003 (04)