独立于语种的文本分类方法

被引：52

作者：

黄萱菁

吴立德

石崎洋之

徐国伟

机构：

[1] 复旦大学计算机科学系!上海

[2] 富士通研究开发中心有限公司!北京

来源：

中文信息学报 | 2000年 / 06期

关键词：

文本分类; 特征抽取; 机器学习;

D O I：

暂无

中图分类号：

TP391 [信息处理（信息加工）];

学科分类号：

摘要：

文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。

引用

收藏

页码：1 / 7

页数：7

相关论文

共 3 条

[1] 中文文档自动分类系统的设计与实现
邹涛
王继成
黄源
张福炎
[J]. 中文信息学报, 1999, (03) : 27 - 33
[2] 基于向量空间模型的文档分类系统
黄萱菁
吴立德
[J]. 模式识别与人工智能, 1998, 11 (02) : 147 - 153
[3] 汉语语料的自动分类
吴军，王作英，禹锋，王侠
[J]. 中文信息学报, 1995, (04) : 25 - 32