基于朴素贝叶斯模型的中文关键词提取算法研究

被引:12
作者
程岚岚
何丕廉
孙越恒
机构
[1] 天津大学计算机科学与技术系
[2] 天津大学计算机科学与技术系 天津
[3] 天津
关键词
关键词提取; 朴素贝叶斯模型; 特征项;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
提出了一种基于朴素贝叶斯模型的中文关键词提取算法。该算法首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。实验表明,相对于传统的if*idf方法,该算法可从小规模的文档集中提取出更为准确的关键词,而且可灵活地增加表征词语重要性的特征项,因而具有更好的可扩展性。
引用
收藏
页码:64 / 66
页数:3
相关论文
共 6 条
[1]  
Domain-Specific Key-phrase Extraction. FRANK E,PAYNTER G,W ITTEN IH,et al. Proceed ings of the S ixteenth InternationalJoint Conference on Artificial Intelligence (IJCAI-99) . 1999
[2]  
Keyword Extraction from a S ingle Docum entusingW ord Co-occurrence Statistical Information. Matsuo Y,Ish izuka M. International Jour-nal on Artificial Intelligence Tools . 2004
[3]  
M ethods for automatic term recogn ition:Areview. KAGEURA K,UM INO B. Term inology . 1996
[4]  
M ulti-interval Discretization of Continu鄄ous-valued Attributes for Classification Learning. Fayyad U M,Irani K B. The13th International Joint Conference on Artificial Intelligence . 1993
[5]  
KEA:PracticalAuto-matic Keyphrase Extraction. W ITTEN IH,PAYNTER GW,FRANK E,et al. Proceed ings ofACM D igital L ibrar-ies Conference . 1999
[6]  
PAT-Tree-Based Keyword Extraction for Chinese Information Retrieval. Lee-Feng Chien. . 1997