科技项目查重中特征词TF-IDF值计算方法的改进

被引:14
作者
方延风
机构
[1] 福建省科学技术信息研究所
关键词
文本特征; 特征词权值; TF-IDF; 算法改进; 项目查重; 科技项目;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对科技项目查重的需要,利用分词的结果,将科技项目文档转换为文本向量空间模型,抽取特征词,并将特征词的位置和词的长度2个因素考虑进来,提出一种TF-IDF值的改进计算方法,并实例验证该方法有一定的改善效果。
引用
收藏
页码:1 / 3
页数:3
相关论文
共 4 条
[1]   文本分类中基于位置和类别信息的一种特征降维方法 [J].
刘海峰 ;
王元元 ;
张学仁 ;
姚泽清 .
计算机应用研究, 2008, (08) :2292-2294
[2]   基于文本表示的特征项权值确定方法研究 [J].
王海涌 ;
郑丽英 ;
刘丽艳 .
甘肃科学学报, 2005, (03) :86-89
[3]   基于相对词频的文本特征抽取方法 [J].
张鹏飞 ;
李赟 ;
刘建毅 ;
钟义信 .
计算机应用研究, 2005, (04) :23-26
[4]   试论自动摘要技术 [J].
李爱红 .
图书情报工作, 2000, (04) :40-42