基于本体的文本分类方法

被引:5
作者
张颖 [1 ]
王文杰 [1 ]
史忠植 [2 ]
机构
[1] 中国科学院研究生院
[2] 中国科学院计算技术研究所
基金
北京市自然科学基金;
关键词
文本分类; 本体; 模糊数学规划; 多类别多标签;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
文本分类是智能科学研究中的重要问题,如何能使分类结果更精确一直是研究的重点。本体技术兴起之后,利用本体作为词典,从而在语义上进行扩展的方法使分类的精确度有了改善。但是,本体自身的结构并没有得到应用,多类别多标签的分类也没有因此得到大幅度改进。作为领域内公认的概念体系,本体自身的结构也是一种非常好的分类标准,为多类别多标签的分类提供了很好的载体。针对多类别多标签分类问题,提出了以本体为类别指导,基于模糊数学规划思想的分类方法。将本体概念作为分类标准,将文本散列到相应的本体概念类别中,并给出其相关程度。实验验证了该方法能够做到更细致的分类结果,改善了多类别多标签分类的能力。此外,该方法还能够改善数据在语义W eb网中的传输效果。
引用
收藏
页码:103 / 106+178 +178
页数:5
相关论文
共 9 条
[1]   语义Web中的本体自动映射 [J].
唐杰 ;
梁邦勇 ;
李涓子 ;
王克宏 .
计算机学报, 2006, (11) :1956-1976
[2]   基于Rough集约简算法的中文文本自动分类系统 [J].
盛晓炜 ;
江铭虎 .
电子与信息学报, 2005, (07) :1047-1052
[3]   基于本体论和词汇语义相似度的Web服务发现 [J].
吴健 ;
吴朝晖 ;
李莹 ;
邓水光 .
计算机学报, 2005, (04) :595-602
[4]   基于知网的概念特征抽取方法 [J].
赵林 ;
胡恬 ;
黄萱菁 ;
吴立德 ;
不详 .
通信学报 , 2004, (07) :46-54
[5]   本体论研究综述 [J].
李善平 ;
尹奇韡 ;
胡玉杰 ;
郭鸣 ;
付相君 .
计算机研究与发展, 2004, (07) :1041-1052
[6]   基于支撑向量置换核函数的一种领域知识与模型融合的技术 [J].
李辉 ;
史忠植 ;
何清 ;
许卓群 .
计算机学报, 2002, (08) :860-868
[7]   中文文本分类器的设计 [J].
陆建江 ;
张文献 .
计算机工程与应用, 2002, (15) :49-51
[8]   基于序列的文本自动分类算法 [J].
解冲锋 ;
李 星 .
软件学报, 2002, (04) :783-789
[9]   A survey of approaches to automatic schema matching [J].
Rahm, E ;
Bernstein, PA .
VLDB JOURNAL, 2001, 10 (04) :334-350