基于主题词频数特征的文本主题划分

被引:11
作者
康恺 [1 ]
林坤辉 [1 ]
周昌乐 [2 ]
机构
[1] 厦门大学软件学院
[2] 厦门大学信息科学与技术学院
关键词
搜索引擎; 文本聚类; 模糊C-均值; 主题词筛选;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
目前文本分类所采用的文本—词频矩阵具有词频维数过大和过于稀疏两个特点,给计算造成了一定困难。为解决这一问题,从用户使用搜索引擎时选择所需文本的心理出发,提出了一种基于主题词频数特征的文本主题划分方法。该方法首先根据统计方法筛选各文本类的主题词,然后以主题词类替代单个词作为特征采用模糊C-均值(FCM)算法施行文本聚类。实验获得了较好的主题划分效果,并与一种基于词聚类的文本聚类方法进行了过程及结果中多个方面的比较,得出了一些在实施要点和应用背景上较有意义的结论。
引用
收藏
页码:1993 / 1995
页数:3
相关论文
empty
未找到相关数据