利用本体关联度改进的TF-IDF特征词提取方法

被引:26
作者
徐建民 [1 ]
王金花 [2 ]
马伟瑜 [3 ]
机构
[1] 河北大学工商学院
[2] 河北大学管理学院
[3] 河北大学数学与计算机学院
关键词
文本特征词提取; TF-IDF; 本体关联词; 本体关联度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。
引用
收藏
页码:279 / 283
页数:5
相关论文
共 13 条
[1]   基于量化同义词关系的改进特征词提取方法 [J].
徐建民 ;
刘清江 ;
付婷婷 ;
戴旭 .
河北大学学报(自然科学版), 2010, 30 (01) :97-101
[2]   一种果品领域本体库的构建方法 [J].
刘琼 ;
李宝敏 .
计算机技术与发展, 2009, 19 (01) :197-199+203
[3]   基于注塑模具本体的语义相关性研究 [J].
王莉影 ;
毛宁 ;
陈庆新 .
机械科学与技术, 2008, (10) :1228-1232
[4]   基于知网和术语相关度的本体关系抽取研究 [J].
傅继彬 ;
刘杰 ;
贾可亮 ;
毛金涛 .
现代图书情报技术, 2008, (09) :36-40
[5]   基于同义词词林的文本特征选择与加权研究 [J].
吕震宇 ;
林永民 ;
赵爽 ;
朱卫东 .
情报杂志, 2008, (05) :130-132
[6]   文本分类中词语权重计算方法的改进与应用 [J].
熊忠阳 ;
黎刚 ;
陈小莉 ;
陈伟 .
计算机工程与应用, 2008, (05) :187-189
[7]   基于词语关联的文本特征词提取方法 [J].
廖浩 ;
李志蜀 ;
王秋野 ;
张意 .
计算机应用, 2007, (12) :3009-3012
[8]   基于SUMO的概念语义相似度研究 [J].
徐德智 ;
郑春卉 ;
K Passi .
计算机应用, 2006, (01) :180-183
[9]   特征词提取中同义处理的新方法 [J].
邹娟 ;
周经野 ;
邓成 ;
高南莎 .
中文信息学报, 2005, (06) :46-51
[10]   文本分类中的特征选取 [J].
刘丽珍 ;
宋瀚涛 .
计算机工程, 2004, (04) :14-15+175