学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种主题爬虫文本分类器的构建
被引:1
作者
:
论文数:
引用数:
h-index:
机构:
姜鹏
论文数:
引用数:
h-index:
机构:
宋继华
机构
:
[1]
北京师范大学信息科学与技术学院
来源
:
中文信息学报
|
2010年
/ 06期
关键词
:
DF;
CHI统计量;
分类器;
主题爬取;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基于该分类器做对外汉语相关主题的网页爬取工作,实验表明,效率和召回率比传统分类器都有较大程度的提高,目前该分类器已经用于为大型对外汉语语料库构建提供数据源。
引用
收藏
页码:92 / 96
页数:5
相关论文
共 4 条
[1]
主题爬虫的搜索策略研究
[J].
论文数:
引用数:
h-index:
机构:
刘汉兴
;
刘财兴
论文数:
0
引用数:
0
h-index:
0
机构:
华南农业大学信息学院
刘财兴
.
计算机工程与设计,
2008,
(12)
:3160
-3162+3166
[2]
中文文本分类中特征抽取方法的比较研究
[J].
论文数:
引用数:
h-index:
机构:
代六玲
;
论文数:
引用数:
h-index:
机构:
黄河燕
;
论文数:
引用数:
h-index:
机构:
陈肇雄
.
中文信息学报,
2004,
(01)
:26
-32
[3]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[4]
中文文本分类中特征提取算法研究[D]. 彭时名.重庆大学. 2006
←
1
→
共 4 条
[1]
主题爬虫的搜索策略研究
[J].
论文数:
引用数:
h-index:
机构:
刘汉兴
;
刘财兴
论文数:
0
引用数:
0
h-index:
0
机构:
华南农业大学信息学院
刘财兴
.
计算机工程与设计,
2008,
(12)
:3160
-3162+3166
[2]
中文文本分类中特征抽取方法的比较研究
[J].
论文数:
引用数:
h-index:
机构:
代六玲
;
论文数:
引用数:
h-index:
机构:
黄河燕
;
论文数:
引用数:
h-index:
机构:
陈肇雄
.
中文信息学报,
2004,
(01)
:26
-32
[3]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[4]
中文文本分类中特征提取算法研究[D]. 彭时名.重庆大学. 2006
←
1
→