一种新的Web中文文本聚类方法研究

被引:3
作者
叶宇飞 [1 ]
安世全 [2 ]
代劲 [3 ]
机构
[1] 重庆邮电大学计算机科学与技术学院
[2] 重庆邮电大学移通学院
[3] 重庆大学计算机科学与技术学院
关键词
Web文本聚类; 特征降维; 知网; 文本相似度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
传统的文本聚类缺少语义信息,文本的特征向量高维稀疏,忽略了Web文本的特殊性。为了解决这些问题,提出一种Web中文文本聚类方法。在基于知网(HowNet)的概念空间基础上过滤非名词,分析文本中重要词汇的语义,对标签特征集与正文特征集进行特征集聚类,再利用改进的TF-IDF算法选取两个集合中的特征,最终将文本表示为选取的标签特征集与正文特征集的并集,降低了特征的维度,高效地表示了文本。通过实验验证了其有效性。
引用
收藏
页码:222 / 225+287 +287
页数:5
相关论文
共 8 条
[1]  
The SMART retrieval system-experiments in automatic document processing. Salton G. The SMART Retrieval System: Experiments in Automatic Document Processing . 1971
[2]   一种结合词项语义信息和TF-IDF方法的文本相似度量方法 [J].
黄承慧 ;
印鉴 ;
侯昉 .
计算机学报, 2011, 34 (05) :856-864
[3]   基于概念格的Web文本聚类 [J].
李云 ;
田素方 ;
李拓 ;
徐涛 .
计算机工程与应用, 2008, (23) :169-171+186
[4]   一种基于语义内积空间模型的文本聚类算法 [J].
彭京 ;
杨冬青 ;
唐世渭 ;
付艳 ;
蒋汉奎 .
计算机学报, 2007, (08) :1354-1363
[5]   基于Web的文本挖掘技术研究 [J].
许高建 .
计算机技术与发展, 2007, (06) :187-190
[6]  
基于知网语义相似度的中文文本聚类方法研究[D]. 许君宁.西安电子科技大学 2010
[7]  
Web Document Clustering:A Feasibility Demonstration. Zamir O,Etzioni O. Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval . 1998
[8]   概念向量文本聚类算法 [J].
白秋产 ;
金春霞 ;
周海岩 .
计算机工程与应用, 2011, 47 (35) :155-157+209