基于领域相关词汇提取的特征选择方法

被引:4
作者
孙麟
牛军钰
机构
[1] 复旦大学计算机科学与工程系
关键词
文本分类; 文档表示; 特征选择; 领域相关;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
传统文本分类中的文档表示方法一般基于全文本(Bag-Of-Words)的分析,由于忽略了领域相关的语义特征,无法很好地应用于面向特定领域的文本分类任务.本文提出了一种基于语料库对比领域相关词汇提取的特征选择方法,结合SVM分类器实现了适用于特定领域的文本分类系统,能轻松应用到各个领域.该系统在2005年文本检索会议(TREC,Text REtrieval Conference)的基因领域文本分类任务(Genomics Track Categorization Task)的评测中取得第一名.
引用
收藏
页码:895 / 899
页数:5
相关论文
共 3 条
[1]  
Corpus-based terminolo-gy extraction applied to information access. Penas A,Verdejo F,Gonzalo J,et al. In:Proceedings of Corpus Linguistics . 2001
[2]  
TREC2004genomics track overview. William Hersh. In:13th Text Retrieval Conference . 2004
[3]  
A comparison of classifiers and document representations for the routing problem. Schutze H,Hull D A,Pedersen J O. In:18thAnn Int ACM SIGIR Conference on Research and Develop-ment in Information Retrieval . 1995