基于LSA的二次降维法在中文法律案情文本分类中的应用

被引:8
作者
熊小梅
刘永浪
机构
[1] 江西蓝天学院
关键词
文本分类; 二次降维; 法律文本;
D O I
10.19651/j.cnki.emt.2007.10.032
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
利用文本挖掘来表达文本特征,由于文本表现出巨大的维数,从而导致处理过程计算复杂,因此,首先应该对文本进行降维处理。潜在语义分析理论(latent semantican alysis,LSA)作为一种文本聚类的方法,在有效提取文本信息表现出许多特有的优势,在多个领域中被引用。本文构建了中文法律案情文本分类系统,引入LSA方法进行文本向量空间的二次降维,并利用LSA方法处理后的特征集——文档矩阵代替原有矩阵,从而进一步删除噪声,加快分类系统的处理速度。文中给出了具体实现过程及实验数据,通过实验证明该方法能收到较好的效果。
引用
收藏
页码:111 / 114
页数:4
相关论文
共 4 条
[1]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[2]   基于概念的文本类别特征提取与文本模糊匹配 [J].
罗三定 ;
陆文彦 ;
王浩 ;
贾维嘉 ;
不详 .
计算机工程与应用 , 2002, (16) :97-99+104
[3]   中文文本的关键词自动抽取和模糊分类 [J].
何新贵 ;
彭甫阳 .
中文信息学报, 1999, (01) :10-16
[4]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90