学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于后缀树模型的文本实时分类系统的研究和实现
被引:10
作者
:
论文数:
引用数:
h-index:
机构:
郭莉
张吉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张吉
论文数:
引用数:
h-index:
机构:
谭建龙
机构
:
[1]
中国科学院计算技术研究所
来源
:
中文信息学报
|
2005年
/ 05期
关键词
:
计算机应用;
中文信息处理;
实时文本分类;
向量空间模型;
后缀树;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM),并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算。同时,该模型能够保证训练集中文本的更改,对分类结果产生实时影响。实验结果和算法分析表明,我们系统的文本预处理的时间复杂度为O(N),远远优于分词系统的预处理时间复杂度。此外,由于不需要分词和特征抽取,分类过程与具体语种无关,所以是一种独立语种的分类方法。
引用
收藏
页码:16 / 23
页数:8
相关论文
共 6 条
[1]
基于N元汉字串模型的文本表示和实时分类的研究与实现
王映
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
王映
常毅
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
常毅
谭建龙
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
谭建龙
论文数:
引用数:
h-index:
机构:
白硕
[J].
计算机工程与应用,
2005,
(05)
: 88
-
91
[2]
基于向量空间模型的文本自动分类系统的研究与实现
论文数:
引用数:
h-index:
机构:
庞剑锋
论文数:
引用数:
h-index:
机构:
卜东波
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
[J].
计算机应用研究,
2001,
(09)
: 23
-
26
[3]
独立于语种的文本分类方法
黄萱菁
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
黄萱菁
论文数:
引用数:
h-index:
机构:
吴立德
石崎洋之
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
石崎洋之
徐国伟
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
徐国伟
[J].
中文信息学报,
2000,
(06)
: 1
-
7
[4]
文档中词语权重计算方法的改进
论文数:
引用数:
h-index:
机构:
鲁松
论文数:
引用数:
h-index:
机构:
李晓黎
论文数:
引用数:
h-index:
机构:
白硕
论文数:
引用数:
h-index:
机构:
王实
[J].
中文信息学报,
2000,
(06)
: 8
-
13+20
[5]
概念推理网及其在文本分类中的应用
论文数:
引用数:
h-index:
机构:
李晓黎
论文数:
引用数:
h-index:
机构:
刘继敏
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
史忠植
[J].
计算机研究与发展,
2000,
(09)
: 1032
-
1038
[6]
On-line construction of suffix trees[J] . E. Ukkonen.Algorithmica . 1995 (3)
←
1
→
共 6 条
[1]
基于N元汉字串模型的文本表示和实时分类的研究与实现
王映
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
王映
常毅
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
常毅
谭建龙
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
谭建龙
论文数:
引用数:
h-index:
机构:
白硕
[J].
计算机工程与应用,
2005,
(05)
: 88
-
91
[2]
基于向量空间模型的文本自动分类系统的研究与实现
论文数:
引用数:
h-index:
机构:
庞剑锋
论文数:
引用数:
h-index:
机构:
卜东波
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
[J].
计算机应用研究,
2001,
(09)
: 23
-
26
[3]
独立于语种的文本分类方法
黄萱菁
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
黄萱菁
论文数:
引用数:
h-index:
机构:
吴立德
石崎洋之
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
石崎洋之
徐国伟
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系!上海
徐国伟
[J].
中文信息学报,
2000,
(06)
: 1
-
7
[4]
文档中词语权重计算方法的改进
论文数:
引用数:
h-index:
机构:
鲁松
论文数:
引用数:
h-index:
机构:
李晓黎
论文数:
引用数:
h-index:
机构:
白硕
论文数:
引用数:
h-index:
机构:
王实
[J].
中文信息学报,
2000,
(06)
: 8
-
13+20
[5]
概念推理网及其在文本分类中的应用
论文数:
引用数:
h-index:
机构:
李晓黎
论文数:
引用数:
h-index:
机构:
刘继敏
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
史忠植
[J].
计算机研究与发展,
2000,
(09)
: 1032
-
1038
[6]
On-line construction of suffix trees[J] . E. Ukkonen.Algorithmica . 1995 (3)
←
1
→