随着信息技术和网络技术的不断发展,全球数字信息量每年以1018字节的速度剧增,海量学习资源出现了规范不一、组织异构、缺乏语义关联等问题,严重制约了网络教学资源的管理和知识共享。目前互联网上知识数据大量存储在教学资源文档中,各类文档的粒度和结构不便于知识的加工、整合和管理。
2006年TimBerners-Lee提出关联数据的概念。该概念的提出为解决上述问题提供了一种新的思路。应用关联数据(LinkedData)技术发布知识数据,是实现数据万维网(Web of Data)最重要的一步;本体是语义Web中实现知识表示、知识推理、知识共享和知识重用的重要技术。使用W3C组织公布的资源描述框架及说明(Resource Description Framework, RDF; RDF Scheme, RDFS)和Web本体语言(VVeb Ontology language, OWL)对文档中出现的概念和概念问的关系做形式化定义,它的全球通用性和机器可读性加强了语义检索和人机协同性。使非结构化的学习资源能够转化成可管理的知识。关联数据的最主要作用是数据整合和赋予语义。同时,大量的实践表明,通过关联数据技术能够为电子学习系统提供富有语义的全新的知识服务。基于以上背景分析可知,本文认为关联课程数据构建、组织以及知识管理是未来电子学习领域研究的重要方向。
本文的主要思路关注两个部分:(1)关联课程数据组织;(2)关联数据的知识管理。
在第一部分关联课程数据组织阶段,首先将课程教学资源自动或半自动的转化为RDF数据,接着将RDF知识数据进行提炼和处理,创建知识之间以及本数据集与目前LOD上其他数据集之间的关联,构建成关联课程数据,然后通过OWL本体语言对其进行描述,从而实现关联数据演进成为知识本体。
在第二部分知识管理阶段,针对语义数据的存储和索引问题以及不同数据集之间的共同引用问题做出了探讨。
本文从数据转换、关联课程数据构建、知识本体构建、关联数据存储索引、数据集成等方面展开研究。
(1)提出了将多种类型的教学资源文档转换为RDF数据的方法,其中创新的提出四步法将表格数据转换为RDF数据。首先将表中的列头与LOD关联数据集中的类关联;接着将单元格的值链接到这些类的实例,随后挖掘表中的列之间隐含的语义关系,最后生成语义标注输出。
(2)针对知识表示的问题,提出了关联课程数据构建方法,其中以计算机微机接口,组成原理等课程为例,构建计算机硬件课程RDF数据集。在此基础上将数据集与其他LOD上的大型相关的数据集如DBpedia等,进行owl:same As关联,形成关联的数据集。接着在关联课程数据构建的基础上,引入知识本体的思想,使用便于知识关联和导航的谓词,添加知识点的前后续认知顺序关系,为关联课程数据增加语义。为上层知识服务平台的应用提供很好的数据基础。
(3)针对关联数据存储和索引的问题,提出一个关联数据存储索引架构。在存储方面,使用MonetDB存储系统提高查询的性能。在索引方面扩展了垂直划分系统。本文使用五个索引:sIndex(subject索引),pIndex(i胃词索引)和oIndex (object索引)以及value索引和class索引。此外,优化了连接操作排序用来提高查询性能。
(4)针对不同数据集中实体的共同引用问题,提出了(1)基准线的方法,它利用数据集中明确的owl:same As的关系进行数据集成(合并);(2)在基准线方法的基础上进行了扩展,使用OWL2的RL/RDF规则的子集(利用了反函数属性、函数属性、基数约束等)推理出新的owl:same As的关系,然后再用基准线方法进行整合。
最后,基于业界权威数据集的大量实验证明了本文算法研究的有效性;原型系统的开发及实验证明了所提架构的有效性;两方面的实验结果表示本文针对四大关键技术所做的深入研究和提出的实现方案具体创新性,并且是可行和有效的。