中医药作为中华文明的瑰宝,同时其知识体系的庞大和复杂也是众所周知的。因此规范中医药术语成了中医药学科研究和发展的重中之重,同时利用这些规范化的数据指导自然语言知识处理工作,中医药一体化语言系统(TraditionalChinese Medicine Language System,TCMLS)应运而生。
本文首先介绍了支持基于本体开发的在线加工平台——语言系统,在该系统中,采用Web2.0的相关技术,同时利用了Spring的框架进行开发,目的是提供高质量的数据加工系统,同时提供一个具有良好用户体验的平台。目前,语言系统已经成为世界上最大的中医药本体,共采集16个一级类目,编录12862个类,收录词条数为81811个。
同时基于语言系统的外围工具也初现雏形。支持语言系统的RDF和OWL导出势在必行;同时支持语言系统的可配置的数据导出,旨在根据用户的偏好和实际需求,将数据扁平化,导出所需数据;另外,整合中医药领域的多个标准数据,提供一个可视化的查询和检索平台。
基于语言系统的应用一直是中医药领域发展的一个头疼问题。经过长时间的探索,我们尝试了在不同方向对语言系统进行应用。在本文中将介绍语言系统在中医药共享和共建两大平台上的应用,同时介绍语言系统在中医药领域的中文分词中的贡献。这些应用是对中医药本体的科学利用大胆尝试,希望借此总结经验教训使得中医药本体有更光明的应用前景。
总的来说,本文阐述了中医药领域本体一体化语言系统从开发到应用的一个历程。
本文得到以下基金资助:国家(973)计划子课题(No.2003CB317006)