一种主题爬虫文本分类器的构建

被引:1
作者
姜鹏
宋继华
机构
[1] 北京师范大学信息科学与技术学院
关键词
DF; CHI统计量; 分类器; 主题爬取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基于该分类器做对外汉语相关主题的网页爬取工作,实验表明,效率和召回率比传统分类器都有较大程度的提高,目前该分类器已经用于为大型对外汉语语料库构建提供数据源。
引用
收藏
页码:92 / 96
页数:5
相关论文
共 4 条
[1]   主题爬虫的搜索策略研究 [J].
刘汉兴 ;
刘财兴 .
计算机工程与设计, 2008, (12) :3160-3162+3166
[2]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[3]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[4]  
中文文本分类中特征提取算法研究[D]. 彭时名.重庆大学. 2006