学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
文本层次分类中特征项权重算法的比较研究
被引:4
作者
:
谭金波
论文数:
0
引用数:
0
h-index:
0
机构:
不详
谭金波
机构
:
[1]
不详
[2]
山东师范大学教育技术系
[3]
不详
来源
:
情报杂志
|
2007年
/ 09期
关键词
:
层次分类;
特征项权重;
文本表示;
向量空间模型;
D O I
:
暂无
中图分类号
:
TP301.6 [算法理论];
学科分类号
:
摘要
:
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,其对文本分类的效果起着至关重要的作用。目前,特征项权重的计算方法很多,但在层次分类环境下哪种方法较好还没有定论。以层次分类环境为出发点,对TF.IDF和基于熵概念的权重方法进行了比较研究,实验结果表明TF.IDF整体得分最高,能够对文本进行较好地形式化表示。
引用
收藏
页码:87 / 88+91 +91
页数:3
相关论文
共 5 条
[1]
文本自动分类中特征权重算法的改进研究
[J].
徐凤亚
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
徐凤亚
;
罗振声
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
罗振声
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
不详
.
计算机工程与应用 ,
2005,
(01)
:181
-184+220
[2]
文本分类中特征项权重的计算方法
[J].
贝雨馨
论文数:
0
引用数:
0
h-index:
0
机构:
延边大学理工学院计算机科学与技术系
贝雨馨
;
崔荣一
论文数:
0
引用数:
0
h-index:
0
机构:
延边大学理工学院计算机科学与技术系
崔荣一
.
延边大学学报(自然科学版),
2004,
(03)
:202
-204+234
[3]
文本挖掘研究进展
[J].
湛燕
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学数学与计算机科学学院
湛燕
;
陈昊
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学数学与计算机科学学院
陈昊
;
袁方
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学数学与计算机科学学院
袁方
;
论文数:
引用数:
h-index:
机构:
王丽娟
.
河北大学学报(自然科学版),
2003,
(02)
:221
-226
[4]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
[5]
中文文本自动分类中的关键问题研究[D]. 薛德军.清华大学. 2004
←
1
→
共 5 条
[1]
文本自动分类中特征权重算法的改进研究
[J].
徐凤亚
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
徐凤亚
;
罗振声
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
罗振声
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
不详
.
计算机工程与应用 ,
2005,
(01)
:181
-184+220
[2]
文本分类中特征项权重的计算方法
[J].
贝雨馨
论文数:
0
引用数:
0
h-index:
0
机构:
延边大学理工学院计算机科学与技术系
贝雨馨
;
崔荣一
论文数:
0
引用数:
0
h-index:
0
机构:
延边大学理工学院计算机科学与技术系
崔荣一
.
延边大学学报(自然科学版),
2004,
(03)
:202
-204+234
[3]
文本挖掘研究进展
[J].
湛燕
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学数学与计算机科学学院
湛燕
;
陈昊
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学数学与计算机科学学院
陈昊
;
袁方
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学数学与计算机科学学院
袁方
;
论文数:
引用数:
h-index:
机构:
王丽娟
.
河北大学学报(自然科学版),
2003,
(02)
:221
-226
[4]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
[5]
中文文本自动分类中的关键问题研究[D]. 薛德军.清华大学. 2004
←
1
→