中文分词算法在GIS中的应用研究

被引:0
作者
孙博雅
机构
[1] 中南大学
关键词
GIS; 自然语言查询接口; 分词词典; Trie索引树; 中文分词算法;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
随着科技的进步,网络技术的不断发展,地理信息系统也逐渐应用到各个方面并渗入到人们的日常生活当中。针对各阶层用户提供一种基于自然语言的地理信息系统查询接口具有广阔的开发前景。接口的核心工作就是将自然语言转化成计算机可以识别的机器语言,其首要任务就是将自然语言查询语句进行切分和词性筛选,这也是本文的工作重点。 首先,将数据逻辑划分为通用词典、空间对象词典和空间关系词典,对字典中的各种词性进行总结并用字符表示。在基于Trie索引树的分词词典的数据结构中加入“判断标示”,用以给后续分词算法进行判定使用。高频前缀降低了Trie索引树的空间浪费并降低了树的深度。其次,基于逆向最大匹配算法的“长词优先”原则,提出了根据“最长词可能性”原则选择匹配首字的分词方法,算法过程中同样处理长词覆盖短词的情况。该算法的时间复杂度为O(S)是线性的。最后,通过浅层词性筛选算法,解决数据多词性和多词性描述问题。通过该算法,获得查询语句中各词的唯一词性描述信息。链式栈结构降低了空间复杂度,该算法的正确性约为90%。 根据上述算法实现了用于地理信息系统的自然语言查询语句切分、词性筛选系统。实验结果表明,该系统在速度上和正确性上做到了均衡,正确性有效地提高。
引用
收藏
页数:66
共 61 条
[1]
一种GIS的中文分词算法研究 [J].
杨晓军 ;
王一莉 .
微电子学与计算机, 2010, 27 (07) :173-176+180
[2]
双数组Trie树索引的可操作性研究 [J].
廖敏 ;
褚颖娜 ;
宋继华 .
计算机系统应用, 2009, 18 (10) :53-56+52
[3]
地理信息系统的研究及其发展展望 [J].
欧瑜枫 .
大众科技, 2009, (03) :17-18
[4]
GIS的发展过程和发展趋势综述 [J].
楚叶峰 .
长春大学学报, 2008, 18 (12) :40-41
[5]
几种基于词典的中文分词算法评价 [J].
李丹宁 ;
李丹 ;
王保华 ;
马新强 .
贵州科学, 2008, (03) :1-8
[6]
论地球空间信息服务技术的发展 [J].
龚健雅 ;
李德仁 .
测绘通报, 2008, (05) :5-10
[7]
基于反序词典的中文分词技术研究 [J].
罗桂琼 ;
费洪晓 ;
戴弋 .
计算机技术与发展, 2008, (01) :80-83
[8]
浅谈GIS的发展历程与趋势 [J].
肖蓓 ;
湛邵斌 ;
尹楠 .
地理空间信息, 2007, (05) :56-60
[9]
GIS中文查询语句的查询条件语义抽取 [J].
徐爱萍 ;
熊皓 ;
黄源 .
计算机工程与科学, 2007, (08) :99-101+126
[10]
基于范例的GIS中文查询的SQL推理 [J].
徐爱萍 ;
边馥苓 ;
黄源 .
武汉大学学报(信息科学版), 2007, (04) :369-372