汉语语料的自动分类

被引:24
作者
吴军,王作英,禹锋,王侠
机构
[1] 清华大学电子工程系
关键词
语料库,语料分类,相关系数;
D O I
暂无
中图分类号
H085.2 [原文的自动分析与综合];
学科分类号
摘要
语料库语言学的发展要求语料库的规模越来越大。随着电子出版业的迅速发展,获取大量机读文本建立大规模语料库已成为可能。但是收集来的粗语料是杂乱无章的,在作加工整理前必须分类。若用手工分类则工作量很大。本文介绍了一种语料自动分类办法。它采用文中提出的语料相关系数的概念,并利用不同类语料相关系数不同的特点进行分类,取得了93%的大类分类正确率。
引用
收藏
页码:25 / 32
页数:8
相关论文
empty
未找到相关数据