基于PAT TREE统计语言模型与关键词自动提取

被引:11
作者
杨文峰
李星
机构
[1] 清华大学电子工程系!北京
[2] 清华大学电子工程系!北京
关键词
PAT Tree; 信息检索; 统计语言模型; 关键词提取;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
未登录关键词的识别是中文信息处理中的一个关键问题。文章利用PAT TREE实现了一种可变长统计语言模型,由于不存在n元统计语言模型的截断效应,从而对待提取的关键词的长度没有限制。在该模型的基础上,通过相关性检测,从540M汉语语料中自动提取出了12万个关键词候选字串。最后,经过分析和筛选,候选字串的准确度由82.3%上升到96.1%。实验表明,基于PAT TREE的统计语言模型是实现未登录词提取的有力工具。
引用
收藏
页码:17 / 19+35 +35
页数:4
相关论文
共 3 条
[1]  
PATRICIA-Pratrical Algorithm to Retrieve Information Coded in Alphanumeric. Morrison D. Journal of the ACM . 1968
[2]  
PAT-tree-based keyword extraction for Chinese information retrieval. Chien,Lee-Feng. SIGIR97 . 1997
[3]  
New indices for text:Pat trees and Pat arrays. Gaston,Gonnet,Ricardo,Baeza-Yates,Snider T. Information Retrieval Data Structure and Algorithms . 1992