无词典高频字串快速提取和统计算法研究

被引:32
作者
韩客松
王永成
陈桂林
机构
[1] 上海交通大学电子信息学院!上海
关键词
Hash技术; 高频字串; 统计; 算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文提出了一种快速的高频字串提取和统计方法。使用Hash技术 ,该方法不需要词典 ,也不需要语料库的训练 ,不进行分词操作 ,依靠统计信息 ,提取高频字串。用语言学知识进行前缀后缀等处理后 ,得到的高频字串可以作为未登录词处理、歧义消解和加权处理等的辅助信息。实验显示了该方法速度较快且不受文章本身的限制 ,在处理小说等真实文本时体现了较高的可用性
引用
收藏
页码:23 / 30
页数:8
相关论文
共 4 条