向量空间模型中结合句法的文本表示研究

被引:6
作者
杨玉珍 [1 ,2 ]
刘培玉 [1 ,2 ]
姜沛佩 [1 ,2 ]
机构
[1] 山东师范大学信息科学与工程学院
[2] 山东省分布式计算机软件新技术重点实验室
关键词
特征项; 短语; 句法规则; 关系树; 文本表示;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为增强向量空间模型(VSM)中项的语义描述性,克服VSM中各语义单元相互独立的缺陷,提出一种基于短语的特征粒度描述方法。该方法从文本的表示及特征项之间的组织方式入手,通过句法规则识别基本短语,构建特征与中心动词的关系树,利用基本短语代替BOW中的词。实验结果表明,采用基本短语的文本表示可提高分类的性能,增加项之间的联系,克服特征项相互独立的缺陷,在特征数量较少的情况下仍能保持良好的分类效果。
引用
收藏
页码:58 / 60
页数:3
相关论文
共 7 条
[1]   网络文本分类中基于信息瓶颈的特征提取 [J].
贺一帆 ;
江铭虎 .
清华大学学报(自然科学版), 2010, 50 (01) :45-48+53
[2]   应用特征项分布信息的信息增益改进方法研究 [J].
杨玉珍 ;
刘培玉 ;
朱振方 ;
邱烨 .
山东大学学报(理学版), 2009, 44 (11) :48-51
[3]   混合的汉语基本名词短语识别方法 [J].
胡乃全 ;
朱巧明 ;
周国栋 .
计算机工程, 2009, 35 (20) :199-201
[4]   汉语基本块标注系统的内部关系分析 [J].
宇航 ;
周强 .
清华大学学报(自然科学版), 2009, 49 (10) :1708-1711+1716
[5]   基于领域词典的文本特征表示 [J].
陈文亮 ;
朱靖波 ;
朱慕华 ;
姚天顺 .
计算机研究与发展, 2005, (12) :2155-2160
[6]   基于最大熵方法的中英文基本名词短语识别 [J].
周雅倩 ;
郭以昆 ;
黄萱菁 ;
吴立德 .
计算机研究与发展, 2003, (03) :440-446
[7]   统计和规则相结合的汉语组块分析 [J].
李素建 ;
刘群 ;
白硕 .
计算机研究与发展, 2002, (04) :385-391