独立于语种的文本分类方法

被引:52
作者
黄萱菁
吴立德
石崎洋之
徐国伟
机构
[1] 复旦大学计算机科学系!上海
[2] 富士通研究开发中心有限公司!北京
关键词
文本分类; 特征抽取; 机器学习;
D O I
暂无
中图分类号
TP391 [信息处理(信息加工)];
学科分类号
摘要
文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。
引用
收藏
页码:1 / 7
页数:7
相关论文
共 3 条