中文文本体裁的自动分类机制

被引:5
作者
方鸷飞
林鸿飞
杨志豪
赵晶
机构
[1] 大连理工大学计算机系
关键词
计算机应用; 中文信息处理; 体裁分类; 特征项选取; 样本分布决策; 支撑向量机;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本按体裁自动分类属于按文本的形式分类的范畴,所以它与按内容自动分类问题有许多的不同之处,本文提出了一种关于中文文本体裁自动分类的新机制。在体裁分类过程中首要的问题是分类特征的选取,体裁分类特征项分为两种方式加以描述,一是集合形式,如基于分类词典和语料统计的政论性词汇和情感词汇等,二是规则形式,如公文标识信息和条文句等。基于根据特征之间的关联性和差异性,采用样本分布决策的方法抽取相应的特征项。最后利用支撑向量机算法进行自动分类。该机制已经在五类体裁的语料上得到实现,并获得了较好的效果。
引用
收藏
页码:24 / 32
页数:9
相关论文
共 5 条
[1]  
汉语文本按语体分类的研究.[A].王慧玲;宋柔;戴伟长;.全国第六届计算语言学联合学术会议.2001,
[2]   从熵均值决策到样本分布决策 [J].
何劲松 ;
郑浩然 ;
王煦法 .
软件学报, 2003, (03) :479-483
[3]  
现代汉语分类词典.[M].董大年主编;.汉语大词典出版社.1998,
[4]  
语境与修辞.[M].寸镇东著;.贵州人民出版社.1996,
[5]  
文章体裁辞典.[M].金振帮编.东北师范大学出版社.1986,