共 4 条
无词典高频字串快速提取和统计算法研究
被引:32
作者:
韩客松
王永成
陈桂林
机构:
[1] 上海交通大学电子信息学院!上海
来源:
关键词:
Hash技术;
高频字串;
统计;
算法;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
本文提出了一种快速的高频字串提取和统计方法。使用Hash技术 ,该方法不需要词典 ,也不需要语料库的训练 ,不进行分词操作 ,依靠统计信息 ,提取高频字串。用语言学知识进行前缀后缀等处理后 ,得到的高频字串可以作为未登录词处理、歧义消解和加权处理等的辅助信息。实验显示了该方法速度较快且不受文章本身的限制 ,在处理小说等真实文本时体现了较高的可用性
引用
收藏
页码:23 / 30
页数:8
相关论文