基于Web文本挖掘的论坛监控系统的设计

被引:2
作者
邓娜娜 [1 ]
朱艺恺 [2 ]
胡文俊 [3 ]
机构
[1] 上海市计算技术研究所
[2] 上海亿通国际股份有限公司
[3] 上海申腾信息技术有限公司
关键词
网页抓取; 信息抽取; 中文分词; 特征抽取; 文本分类; 文本聚类;
D O I
暂无
中图分类号
TP311.52 [];
学科分类号
摘要
当前BBS论坛日益成为人们通过网络进行信息交换的中心,被越来越多的用户使用。为了营造一个健康的网络环境,从网页抓取、信息抽取到主要的文本挖掘技术中文分词、特征表示和提取、文本分类和聚类等方面进行了详细的介绍,同时阐述了其工作原理。此系统不仅可以防止恶意言论的传播,还大大节约了人力,极大地提高了工作效率。
引用
收藏
页码:161 / 163
页数:3
相关论文
共 4 条
  • [1] 文本挖掘技术研究进展
    袁军鹏
    朱东华
    李毅
    李连宏
    黄进
    [J]. 计算机应用研究, 2006, (02) : 1 - 4
  • [2] 文本挖掘及其关键技术与方法
    王丽坤
    王宏
    陆玉昌
    [J]. 计算机科学, 2002, (12) : 12 - 19
  • [3] 文本挖掘及其在文本检索中的应用[D]. 郑毅.中国科学院研究生院(计算技术研究所) 2002
  • [4] 数据挖掘[M]. 机械工业出版社 , (加)JiaweiHan,(加)MichelineKamber著, 2001