一种GIS的中文分词算法研究

被引:8
作者
杨晓军
王一莉
机构
[1] 南京工业大学信息科学与工程学院
关键词
地理信息系统; 中文分词; Trie树; 哈希结构; 分词词典;
D O I
10.19304/j.cnki.issn1000-7180.2010.07.042
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出了一种应用于GIS领域的中文分词算法.采用将首字和尾种类词用哈希表管理,其余中间字串用Trie树来实现的"首位Hash-Trie树"结构作为词典载体来实现地学词典的高效率存取操作,简化了Trie树的深度,并基于一种改进的正向最大匹配的算法,很好的解决了切分歧义和未登录词的问题.实验结果表明,该算法为GIS中文查询语句的正确理解提供了有效的语义信息.
引用
收藏
页码:173 / 176+180 +180
页数:5
相关论文
共 6 条
[1]
数据结构.[M].严蔚敏;吴伟民编著;.清华大学出版社.2002,
[2]
基于Hash结构的逆向最大匹配分词算法的改进 [J].
丁振国 ;
张卓 ;
黎靖 .
计算机工程与设计, 2008, (12) :3208-3211+3265
[3]
基于规则和统计的汉语多输出切分系统 [J].
张辉 ;
武亚红 ;
黄润才 .
微电子学与计算机, 2007, (07) :56-58
[4]
信息检索用户查询语句的停用词过滤 [J].
熊文新 ;
宋柔 .
计算机工程, 2007, (06) :195-197
[5]
一种中文分词词典新机制——双字哈希机制 [J].
李庆虎 ;
陈玉健 ;
孙家广 .
中文信息学报, 2003, (04) :13-18
[6]
一种改进的MM分词算法 [J].
郭辉 ;
苏中义 ;
王文 ;
崔骏 .
微型电脑应用, 2002, (01) :13-15+2