学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于新的关键词提取方法的快速文本分类系统
被引:15
作者
:
罗杰
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学电子信息学院
罗杰
陈力
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学电子信息学院
陈力
论文数:
引用数:
h-index:
机构:
夏德麟
王凯
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学电子信息学院
王凯
机构
:
[1]
武汉大学电子信息学院
来源
:
计算机应用研究
|
2006年
/ 04期
关键词
:
计算机应用;
中文信息处理;
关键词提取;
Web文档分类;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以完成将W eb文档进行快速有效分类的目的。实验表明,该方法在不影响分类准确率的情况下,分类的速度明显提高。
引用
收藏
页码:32 / 34
页数:3
相关论文
共 4 条
[1]
基于内容的中文网页自动分类研究
[J].
论文数:
引用数:
h-index:
机构:
张义忠
;
论文数:
引用数:
h-index:
机构:
赵明生
;
论文数:
引用数:
h-index:
机构:
朱精南
.
信息与控制,
2001,
(05)
:408
-412
[2]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[3]
一种用于自动标引系统的主题词自动切分方法
[J].
唐振民,靳从,杨静宇,李远复
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学信息自动化与制造工程学院
唐振民,靳从,杨静宇,李远复
.
南京理工大学学报,
1995,
(05)
:401
-404
[4]
模式识别[M]. 清华大学出版社 , 边肇祺编著, 1988
←
1
→
共 4 条
[1]
基于内容的中文网页自动分类研究
[J].
论文数:
引用数:
h-index:
机构:
张义忠
;
论文数:
引用数:
h-index:
机构:
赵明生
;
论文数:
引用数:
h-index:
机构:
朱精南
.
信息与控制,
2001,
(05)
:408
-412
[2]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[3]
一种用于自动标引系统的主题词自动切分方法
[J].
唐振民,靳从,杨静宇,李远复
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学信息自动化与制造工程学院
唐振民,靳从,杨静宇,李远复
.
南京理工大学学报,
1995,
(05)
:401
-404
[4]
模式识别[M]. 清华大学出版社 , 边肇祺编著, 1988
←
1
→