基于Document Triage的TF-IDF算法的改进

被引:14
作者
李镇君
周竹荣
机构
[1] 西南大学计算机与信息科学学院
关键词
TF-IDF; Document Triage; 标引; 加权;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对TF-IDF算法在加权时没有考虑特征词本身在文档中重要度的问题,提出利用用户阅读时的阅读行为来改进TF-IDF。将Document Triage引入到TF-IDF中,利用IPM收集用户阅读中行为的相关信息,计算文档评分。由于用户的标注内容往往是文章的重要内容,或者反映了用户的兴趣。因此,赋予用户标注词项更大的权重,将文档评分和用户的标注信息等作为因子引入到TF-IDF中,设计出改进的加权算法DT-TF-IDF。实验结果表明,相对传统TF-IDF算法,DT-TF-IDF的查全率、查准率,以及查准率和查全率的调和均值都有了一定的提高。DT-TF-IDF算法比传统TF-IDF算法更加有效,提高了文本相似度计算的准确性。
引用
收藏
页码:3506 / 3510+3514 +3514
页数:6
相关论文
empty
未找到相关数据