一种基于N-Gram改进的文本特征提取算法

被引:18
作者
于津凯
王映雪
陈怀楚
机构
[1] 清华大学计算机与信息管理中心
[2] 清华大学计算机与信息管理中心 北京
[3] 北京
[4] 北京
关键词
文本特征提取; N-Gram算法; gram关联矩阵;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特征词,从而在固定长度N-Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征提取算法能够更为准确地描述文本特征,可应用于文本检索、Web挖掘等信息处理领域。
引用
收藏
页码:48 / 50+43 +43
页数:4
相关论文
共 3 条