共 13 条
利用本体关联度改进的TF-IDF特征词提取方法
被引:26
作者:
徐建民
[1
]
王金花
[2
]
马伟瑜
[3
]
机构:
[1] 河北大学工商学院
[2] 河北大学管理学院
[3] 河北大学数学与计算机学院
来源:
关键词:
文本特征词提取;
TF-IDF;
本体关联词;
本体关联度;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。
引用
收藏
页码:279 / 283
页数:5
相关论文