一种基于多重因子加权的文本特征项权值计算方法

被引:10
作者
龚静 [1 ]
周经野 [2 ]
机构
[1] 湖南环境生物职业技术学院信息技术系
[2] 湘潭大学信息工程学院
关键词
特征项; 文本聚类; 中文文本; 自然语言处理;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
摘要
根据中文文本的特点,不仅考虑文本中词汇概率信息,还结合文本语义等多方面信息来计算文本特征项的权值,从而提出一种基于多重因子加权的特征项权值计算方法,并给出具体算法。通过与基于词频及基于TF-IDF的特征项权值计算方法的比较试验,证明文中提出的特征项权值计算方法能有效提高文本聚类的正确率。
引用
收藏
页码:81 / 83+86 +86
页数:4
相关论文
共 2 条
[1]   特征词提取中同义处理的新方法 [J].
邹娟 ;
周经野 ;
邓成 ;
高南莎 .
中文信息学报, 2005, (06) :46-51
[2]   一种基于字同现频率的汉语文本主题抽取方法 [J].
马颖华 ;
王永成 ;
苏贵洋 ;
张宇萌 .
计算机研究与发展, 2003, (06) :874-878