基于平均信息熵的中文问句关键词提取

被引:1
作者
丁菲菲 [1 ]
杨思春 [1 ]
刘仁金 [2 ]
机构
[1] 安徽工业大学计算机科学与技术学院
[2] 皖西学院信息工程学院
关键词
自动问答; 关键词提取; TFIDF; 平均信息熵;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
关键词提取是问答系统中问句分析的重要步骤,它有助于问答系统快速、准确地返回答案。针对现有文献中基于TFIDF等方法在关键词提取准确率及效率方面的不足,提出一种基于平均信息熵的中文问句关键词提取方法。通过加入专业领域词汇,并在停用词过滤的基础上计算问句中每个词的平均信息熵,以词的信息熵值直接体现该词在问句中的重要性;同时在关键词提取过程中,通过设定不同提取比例,并在不同提取比例下观察评价标准值,以最佳提取比例获取更为合适的关键词。实验结果表明,与传统的TFIDF等其他方法相比,该方法的查准率、查全率以及F1测度值都得到显著提高。
引用
收藏
页码:46 / 49
页数:4
相关论文
共 9 条
[1]   基于HNC理论和依存句法的句子相似度计算 [J].
吴佐衍 ;
王宇 .
计算机工程与应用, 2014, 50 (03) :97-102
[2]   基于主题特征的关键词抽取 [J].
刘俊 ;
邹东升 ;
邢欣来 ;
李英豪 .
计算机应用研究, 2012, 29 (11) :4224-4227
[3]   基于TFIDF和词语关联度的中文关键词提取方法 [J].
张建娥 .
情报科学, 2012, 30 (10) :1542-1544+1555
[4]   问答系统研究综述 [J].
毛先领 ;
李晓明 .
计算机科学与探索, 2012, 6 (03) :193-207
[5]   基于语义的中文文本关键词提取算法 [J].
王立霞 ;
淮晓永 .
计算机工程, 2012, 38 (01) :1-4
[6]   中文问答系统中基于主题和焦点的问题理解 [J].
陈永平 ;
杨思春 ;
毛万胜 ;
苏新 ;
刘俞 .
计算机系统应用, 2011, 20 (06) :56-60
[7]   利用加权特征模型改进问句分类 [J].
黄鹏 ;
卜佳俊 ;
陈纯 ;
康志明 ;
陈伟 ;
胡洪涛 .
浙江大学学报(工学版), 2009, 43 (06) :994-998+1123
[8]   中文问答系统中问题理解的研究与实现 [J].
张晓孪 ;
王西锋 ;
李乃乾 .
西华大学学报(自然科学版), 2008, (02) :4-7+1
[9]  
中文自动问答系统中问题理解技术的研究[D]. 吕德新.沈阳航空工业学院. 2006