一种GIS的中文分词算法研究

被引：8

作者：

杨晓军

王一莉

机构：

[1] 南京工业大学信息科学与工程学院

来源：

微电子学与计算机 | 2010年 / 27卷 / 07期

关键词：

地理信息系统; 中文分词; Trie树; 哈希结构; 分词词典;

D O I：

10.19304/j.cnki.issn1000-7180.2010.07.042

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

提出了一种应用于GIS领域的中文分词算法.采用将首字和尾种类词用哈希表管理,其余中间字串用Trie树来实现的"首位Hash-Trie树"结构作为词典载体来实现地学词典的高效率存取操作,简化了Trie树的深度,并基于一种改进的正向最大匹配的算法,很好的解决了切分歧义和未登录词的问题.实验结果表明,该算法为GIS中文查询语句的正确理解提供了有效的语义信息.

引用

页码：173 / 176+180 +180

页数：5

共 6 条

[1]

数据结构.[M].严蔚敏;吴伟民编著;.清华大学出版社.2002,

[2]

基于Hash结构的逆向最大匹配分词算法的改进 [J].