学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种基于N-Gram改进的文本特征提取算法
被引:18
作者
:
于津凯
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机与信息管理中心
于津凯
王映雪
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机与信息管理中心
王映雪
陈怀楚
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机与信息管理中心
陈怀楚
机构
:
[1]
清华大学计算机与信息管理中心
[2]
清华大学计算机与信息管理中心 北京
[3]
北京
[4]
北京
来源
:
图书情报工作
|
2004年
/ 08期
关键词
:
文本特征提取;
N-Gram算法;
gram关联矩阵;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特征词,从而在固定长度N-Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征提取算法能够更为准确地描述文本特征,可应用于文本检索、Web挖掘等信息处理领域。
引用
收藏
页码:48 / 50+43 +43
页数:4
相关论文
共 3 条
[1]
一种基于N-Gram技术的中文文献自动分类方法
论文数:
引用数:
h-index:
机构:
何浩
论文数:
引用数:
h-index:
机构:
杨海棠
[J].
情报学报,
2002,
(04)
: 421
-
427
[2]
规则和统计相结合的汉语词类标注方法
周强
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
周强
[J].
中文信息学报,
1995,
(03)
: 1
-
10
[3]
Recursive hashing functions for n-grams
Cohen, JD
论文数:
0
引用数:
0
h-index:
0
机构:
National Security Agency, Fort Meade, MD 20755-6000
Cohen, JD
[J].
ACM TRANSACTIONS ON INFORMATION SYSTEMS,
1997,
15
(03)
: 291
-
320
←
1
→
共 3 条
[1]
一种基于N-Gram技术的中文文献自动分类方法
论文数:
引用数:
h-index:
机构:
何浩
论文数:
引用数:
h-index:
机构:
杨海棠
[J].
情报学报,
2002,
(04)
: 421
-
427
[2]
规则和统计相结合的汉语词类标注方法
周强
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
周强
[J].
中文信息学报,
1995,
(03)
: 1
-
10
[3]
Recursive hashing functions for n-grams
Cohen, JD
论文数:
0
引用数:
0
h-index:
0
机构:
National Security Agency, Fort Meade, MD 20755-6000
Cohen, JD
[J].
ACM TRANSACTIONS ON INFORMATION SYSTEMS,
1997,
15
(03)
: 291
-
320
←
1
→