一种中文自然语言表达交通信息的跨阶分词算法

被引:3
作者
陆锋 [1 ]
刘焕焕 [1 ,2 ]
陈传彬 [1 ,3 ]
机构
[1] 不详
[2] 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室
[3] 不详
[4] 中国矿业大学(北京)资源与安全工程学院
[5] 福州大学福建省空间信息工程研究中心
[6] 不详
关键词
交通信息; 中文自然语言处理; 分词; 跨阶法;
D O I
10.13203/j.whugis2009.08.023
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在分析中文分词算法和交通信息自然语言表达特点基础上,提出了一种自然语言表达交通信息的跨阶匹配分词算法,以适应动态出行信息服务对数字形式结构化实时交通信息的迫切需求。该算法充分考虑了交通信息自然语言描述词库记录长度特点,通过设置对应的中文分词阶数,将传统中文分词的字符串指针1阶跨越方法改进为依词库性质变化的多阶跨越方法,对可能成词的中文字符串进行整体处理,极大地提高了自然语言表达交通信息的实时分词与理解效率。通过与改进MM(maximum matching)算法的实验比较,本方法在理解成功率和容错性相同的情况下,效率比MM分词算法提高了10倍以上。
引用
收藏
页码:943 / 947
页数:5
相关论文
共 11 条