学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于属性选择的半监督短文本分类算法
被引:20
作者
:
论文数:
引用数:
h-index:
机构:
蔡月红
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
朱倩
[
1
]
论文数:
引用数:
h-index:
机构:
孙萍
[
1
]
论文数:
引用数:
h-index:
机构:
程显毅
[
1
]
机构
:
[1]
江苏大学计算机科学与通信工程学院
[2]
江苏大学外语学习中心
来源
:
计算机应用
|
2010年
/ 30卷
/ 04期
关键词
:
属性选择;
半监督学习;
短文本;
文本分类;
集成学习;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
针对海量短文本分类中的标注语料匮乏问题,提出了一种基于属性选择的半监督短文本分类算法。通过基于ReliefF评估和独立性度量的属性选择技术选出部分具有较好的属性独立关系的属性参与分类模型的学习,以弱化朴素贝叶斯模型的强独立性假设条件;借助集成学习,以具有一定差异性的分类器组去估计初始值,并以多数投票策略去分类未标注语料集,以减低最大期望算法(EM)对于初始值的敏感。通过真实语料上进行的比较实验,证明了该方法能有效利用大量未标注语料提高算法的泛化能力。
引用
收藏
页码:1015 / 1018
页数:4
相关论文
共 6 条
[1]
Theoretical and empirical analysis of ReliefF and RReliefF
[J].
论文数:
引用数:
h-index:
机构:
Robnik-Sikonja, M
;
Kononenko, I
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Ljubljana, Fac Comp & Informat Sci, Ljubljana 1001, Slovenia
Univ Ljubljana, Fac Comp & Informat Sci, Ljubljana 1001, Slovenia
Kononenko, I
.
MACHINE LEARNING,
2003,
53
(1-2)
:23
-69
[2]
Text classification from labeled and unlabeled documents using EM
[J].
Nigam, K
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Nigam, K
;
McCallum, AK
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
McCallum, AK
;
Thrun, S
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Thrun, S
;
Mitchell, T
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Mitchell, T
.
MACHINE LEARNING,
2000,
39
(2-3)
:103
-134
[3]
基于领域词语本体的短文本分类
[J].
论文数:
引用数:
h-index:
机构:
宁亚辉
;
樊兴华
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
樊兴华
;
论文数:
引用数:
h-index:
机构:
吴渝
.
计算机科学,
2009,
36
(03)
:142
-145
[4]
一种基于特征扩展的中文短文本分类方法
[J].
论文数:
引用数:
h-index:
机构:
王细薇
;
樊兴华
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
樊兴华
;
赵军
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
赵军
.
计算机应用,
2009,
29
(03)
:843
-845
[5]
用于不完整数据的选择性贝叶斯分类器
[J].
论文数:
引用数:
h-index:
机构:
陈景年
;
论文数:
引用数:
h-index:
机构:
黄厚宽
;
论文数:
引用数:
h-index:
机构:
田凤占
;
论文数:
引用数:
h-index:
机构:
付树军
.
计算机研究与发展,
2007,
(08)
:1324
-1330
[6]
基于Boosting的TAN组合分类器
[J].
石洪波
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院,北京交通大学计算机与信息技术学院,北京交通大学计算机与信息技术学院北京,山西财经大学信息与管理学院,太原,北京,北京
石洪波
;
论文数:
引用数:
h-index:
机构:
黄厚宽
;
论文数:
引用数:
h-index:
机构:
王志海
.
计算机研究与发展,
2004,
(02)
:340
-345
←
1
→
共 6 条
[1]
Theoretical and empirical analysis of ReliefF and RReliefF
[J].
论文数:
引用数:
h-index:
机构:
Robnik-Sikonja, M
;
Kononenko, I
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Ljubljana, Fac Comp & Informat Sci, Ljubljana 1001, Slovenia
Univ Ljubljana, Fac Comp & Informat Sci, Ljubljana 1001, Slovenia
Kononenko, I
.
MACHINE LEARNING,
2003,
53
(1-2)
:23
-69
[2]
Text classification from labeled and unlabeled documents using EM
[J].
Nigam, K
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Nigam, K
;
McCallum, AK
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
McCallum, AK
;
Thrun, S
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Thrun, S
;
Mitchell, T
论文数:
0
引用数:
0
h-index:
0
机构:
Carnegie Mellon Univ, Sch Comp Sci, Pittsburgh, PA 15213 USA
Mitchell, T
.
MACHINE LEARNING,
2000,
39
(2-3)
:103
-134
[3]
基于领域词语本体的短文本分类
[J].
论文数:
引用数:
h-index:
机构:
宁亚辉
;
樊兴华
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
樊兴华
;
论文数:
引用数:
h-index:
机构:
吴渝
.
计算机科学,
2009,
36
(03)
:142
-145
[4]
一种基于特征扩展的中文短文本分类方法
[J].
论文数:
引用数:
h-index:
机构:
王细薇
;
樊兴华
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
樊兴华
;
赵军
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
赵军
.
计算机应用,
2009,
29
(03)
:843
-845
[5]
用于不完整数据的选择性贝叶斯分类器
[J].
论文数:
引用数:
h-index:
机构:
陈景年
;
论文数:
引用数:
h-index:
机构:
黄厚宽
;
论文数:
引用数:
h-index:
机构:
田凤占
;
论文数:
引用数:
h-index:
机构:
付树军
.
计算机研究与发展,
2007,
(08)
:1324
-1330
[6]
基于Boosting的TAN组合分类器
[J].
石洪波
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院,北京交通大学计算机与信息技术学院,北京交通大学计算机与信息技术学院北京,山西财经大学信息与管理学院,太原,北京,北京
石洪波
;
论文数:
引用数:
h-index:
机构:
黄厚宽
;
论文数:
引用数:
h-index:
机构:
王志海
.
计算机研究与发展,
2004,
(02)
:340
-345
←
1
→