基于分离模型的中文关键词提取算法研究

被引:8
作者
罗准辰
王挺
机构
[1] 国防科学技术大学计算机学院
关键词
计算机应用; 中文信息处理; 关键词提取; 关键词串; 分离模型; 互信息; 词串边界参数表;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理:关键单词提取和关键词串提取,设计了一种基于分离模型的中文关键词提取算法。该算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明,相对于传统的关键词提取算法,基于分离模型的中文关键词提取算法效果更好。
引用
收藏
页码:63 / 70
页数:8
相关论文
共 4 条