基于词或词组长度和频数的短中文文本关键词提取算法

被引:14
作者
陈伟鹤
刘云
机构
[1] 江苏大学计算机科学与通信工程学院
关键词
提取; 中文文本处理; 音译词; 网络新词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文文本的关键词提取是自然语言处理研究中的难点。国内外大部分关键词提取的研究都是基于英文文本的,但其并不适用于中文文本的关键词提取。已有的针对中文文本的关键词提取算法大多适用于长文本,如何从一段短中文文本中准确地提取出具有实际意义且与此段中文文本的主题密切相关的词或词组是研究的重点。提出了面向中文文本的基于词或词组长度和频数的关键词提取算法,此算法首先提取文本中出现频数较高的词或词组,再根据这些词或词组的长度以及在文本中出现的频数计算权重,从而筛选出关键词或词组。该算法可以准确地从中文文本中提取出相对重要的词或词组,从而快速、准确地提取此段中文文本的主题。实验结果表明,基于词或词组长度和频数的中文文本关键词提取算法与已有的其他算法相比,可用于处理中文文本,且具有更高的准确性。
引用
收藏
页码:50 / 57
页数:8
相关论文
共 23 条
[1]   面向中文自然语言文档的自动知识抽取方法 [J].
车海燕 ;
冯铁 ;
张家晨 ;
陈伟 ;
李大利 .
计算机研究与发展, 2013, (04) :834-842
[2]   Short text classification based on strong feature thesaurus [J].
Wang, Bing-kun ;
Huang, Yong-feng ;
Yang, Wan-xia ;
Li, Xing .
JOURNAL OF ZHEJIANG UNIVERSITY-SCIENCE C-COMPUTERS & ELECTRONICS, 2012, 13 (09) :649-659
[3]   汉语音译词的多维考察 [J].
何干俊 .
江西社会科学, 2012, 32 (04) :194-197
[4]  
一种改进的KEA关键词抽取算法研究[J]. 陈平,周昌乐,练睿婷.心智与计算. 2011(02)
[5]   基于自适应中文分词和近似SVM的文本分类算法 [J].
冯永 ;
李华 ;
钟将 ;
叶春晓 .
计算机科学, 2010, 37 (01) :251-254+293
[6]   带约束最长公共子序列快速算法 [J].
业宁 ;
朱大铭 ;
张倩倩 ;
沈丽容 .
南京大学学报(自然科学版), 2009, 45 (05) :576-584
[7]   基于语义的关键词提取算法 [J].
方俊 ;
郭雷 ;
王晓东 .
计算机科学, 2008, (06) :148-151
[8]   Chinese Term Extraction Based on PAT Tree [J].
张锋 ;
樊孝忠 ;
许云 .
Journal of Beijing Institute of Technology(English Edition), 2006, (02) :162-166
[9]   KRBKSS: a keyword relationship based keyword-set search system for peer-to-peer networks [J].
张亮 ;
邹福泰 ;
马范援 .
JournalofZhejiangUniversityScienceA(ScienceinEngineering), 2005, (06) :577-582
[10]   An improved TF-IDF approach for text classification [J].
张云涛 ;
龚玲 ;
王永成 .
Journal of Zhejiang University Science A(Science in Engineering), 2005, (01) :50-56