基于句类向量空间模型的自动文本分类研究

被引:7
作者
张运良 [1 ]
张全 [2 ]
机构
[1] 中国科学院研究生院
[2] 中国科学院声学研究所
关键词
文本分类; 句类; 向量空间模型; HNC理论;
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。
引用
收藏
页码:45 / 47
页数:3
相关论文
共 7 条
[1]   基于WordNet概念向量空间模型的文本分类 [J].
张剑 ;
李春平 .
计算机工程与应用 , 2006, (04) :174-178
[2]   文本分类器性能评估指标 [J].
宋枫溪 ;
高林 .
计算机工程, 2004, (13) :107-109+127
[3]   中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[4]   LSI和kNN相结合的文本分类模型研究 [J].
王天江 ;
叶卫国 ;
卢正鼎 ;
李永平 .
华中科技大学学报(自然科学版), 2004, (04) :59-60+86
[5]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[6]  
G. Salton,M. E. Lesk.Computer Evaluation of Indexing and Text Processing[J].Journal of the ACM (JACM),1968
[7]  
黄曾阳著.HNC(概念层次网络)理论[M].北京:清华大学出版社,1998