基于领域知识的文本分类

被引:14
作者
朱靖波
陈文亮
机构
[1] 东北大学信息科学与工程学院
[2] 东北大学信息科学与工程学院 辽宁 沈阳
[3] 辽宁 沈阳
关键词
领域知识; 文本分类; 集聚计算; 机器学习; 朴素贝叶斯模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.
引用
收藏
页码:733 / 735
页数:3
相关论文
共 2 条
[1]  
自然语言理解.[M].姚天顺等编著;.清华大学出版社.2002,
[2]   文本内容主题的识别方法 [J].
朱靖波 ;
姚天顺 .
东北大学学报, 2002, (05) :425-427