基于标题的中文新闻网页自动分类

被引:7
作者
钱爱兵 [1 ]
江岚 [2 ]
机构
[1] 南京中医药大学经贸管理学院
[2] 南京大学信息管理系
关键词
词频/逆文档频率; 新闻标题; 中文新闻网页; 自动分类;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
借鉴tf-idf加权思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法,并设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测。实验结果表明,基于标题对中文新闻网页进行自动分类,可以大大缩短判断处理时间,节省存储空间,且准确率较高,特别是改进的类目加权法分类效果最好。
引用
收藏
页码:59 / 68
页数:10
相关论文
共 9 条
  • [1] 基于词频分类器集成的文本分类方法
    姜远
    周志华
    [J]. 计算机研究与发展, 2006, (10) : 1681 - 1687
  • [2] 中文新闻信息自动分类标引的构想与实现
    邓茜
    林红
    [J]. 中国传媒科技, 2005, (09) : 21 - 23
  • [3] 基于知识库的网页自动标引和自动分类系统的设计
    侯汉清
    薛鹏军
    [J]. 大学图书馆学报, 2004, (01) : 50 - 55+64
  • [4] 可分性判据在中文网页分类中的应用
    秦兵
    郑实福
    刘挺
    张刚
    李生
    [J]. 微处理机, 2002, (01) : 26 - 28
  • [5] 基于标引经验和机器学习相结合的多层自动分类[J]. 何琳,侯汉清,白振田,张雪英.情报学报. 2006 (06)
  • [6] GB/T 20093-2006. 中文新闻信息分类与代码[S]. 2006
  • [7] 应用多元统计分析[M]. 北京大学出版社 , 高惠璇编著, 2005
  • [8] Augmenting Naive Bayes Classifiers with Statistical Language Models
    Fuchun Peng
    Dale Schuurmans
    Shaojun Wang
    [J]. Information Retrieval, 2004, 7 : 317 - 345
  • [9] Semantic,Hierarchical,Online Clustering of Web Search Results. Dell Z,Yisheng D. Proceedings ofthe6th Asia Pacific Web Conference(APWEB) . 2004