随着Internet(因特网)及Web(万维网)技术的发展,众多基于Web的应用系统应运而生,Blog就是其中之一。Blog用于提供用户以日志方式发布网页,由于采用了RSS技术,Blog的沟通方式比电子邮件、讨论群组更简单、更灵活,现己成为家庭、公司、部门和团队之间越来越盛行的网络交流工具。
语义Web是现有Web的延伸,同时也被看成是下一代Web的发展方向,其目标是让Web上的信息能够为机器所理解,实现Web信息的自动处理,从而使得计算机和人类能够更好地协同工作。要在语义层次上实现信息的互操作性,需要对信息的含义有一个一致的共同的理解,对此,语义Web采用了本体论(Ontology)的思想。Web挖掘就是指使用数据挖掘技术从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。它是数据挖掘技术与Web技术的结合。
本文以计算机专业领域的Blog日志为应用场景,设计了一个称为BIRS(Blog Intelligence Retrieval System)的基于语义Web和Web挖掘的“Blog智能检索系统”。该系统不仅实现了对Blog日志的一般查询功能,而且还实现了对Blog日志的语义扩展查询。
本文所做的主要工作和创新点如下:
(1)对BIRS检索系统的功能进行了分析,给出了BIRS检索系统的总体架构及其功能模块组成。
(2)以W3C标准中的OWL语言作为本体的描述语言,用protégé软件构建了计算机专业领域的本体文件。
(3)以所创建的本体为基础,用RDF/RDFS作为资源标记语言实现了对原始日志数据的语义化标注;并且,借助Jena作为工具,实现了对用户所输入的查询语句的语义推理和数据查询。