基于DOM树信息抽取的移动网站开发研究

被引:0
作者
李景
机构
[1] 中国海洋大学
关键词
Web信息抽取; DOM; XSLT; 移动网站;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
随着互联网技术和计算机技术的发展,信息科技正深入地影响着人们的生活。移动互联网的发展,特别是第三代移动通信(3G)技术的推广和应用,更是提供了强大的承载通道和丰富的业务能力支持,使人们的日常生活变得更丰富多彩。人们也迫切地希望通过无线网络,能在任何时间、任何地点、任何场所使用移动设备方便地浏览Web网页获取信息。而移动设备有着小屏幕、小内存、低带宽等与PC机无法比拟的缺点,使得原始HTML网页无法在移动设备上良好地显示,给移动网站的开发提出了新的挑战。 基于以上问题,论文从研究移动网站开发现状开始,提出了基于DOM信息抽取的移动网站开发研究。本文对移动网站的开发主要研究了两大问题:一是如何从Web页面中抽取信息,二是如何将信息很好地显示在移动设备上。本平台采用的是转化服务器和内容转化策略,通过URL获取Web网页信息后,先经过预处理转化为规范的XHMTL文档。然后以DOM树的形式,根据抽取规则,使用XSLT文件映射的方法,产生格式良好的抽取结果保存于XML文档中。抽取结果需通过信息渲染,才能良好地在移动设备上显示。渲染过程要对链接和图片等内容做相应的处理,通过渲染模板实现将抽取结果转化成能在移动设备上显示的结构形式。以平台的支撑,最终实现移动网站的开发。该方法在一定程度上满足了通用性,并以中国海洋大学中文网站为例开发了移动网站,实验结果表明该方法具有一定的可行性。
引用
收藏
页数:63
共 18 条
[1]
一种高效的网页聚类方法 [J].
谢艳玲 ;
何丕廉 ;
于鷃 ;
孙越恒 .
计算机工程与设计, 2007, (17) :4229-4232
[2]
Deep Web查询接口的自动判定 [J].
高岭 ;
赵朋朋 ;
崔志明 .
计算机技术与发展, 2007, (05) :148-151
[3]
基于结构与内容的网页主题信息提取研究 [J].
吴鹏飞 ;
孟祥增 ;
刘俊晓 ;
马凤娟 .
山东大学学报(理学版), 2006, (03) :131-134
[4]
Web数据抽取技术研究进展 [J].
张成洪 ;
古晓洪 ;
白延红 .
计算机科学, 2004, (02) :129-131+151
[5]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66
[6]
Web信息抽取技术研究进展 [J].
陈少飞 ;
郝亚南 ;
李天柱 ;
徐林昊 ;
杨文柱 .
河北大学学报(自然科学版), 2003, (01) :106-112
[7]
XML基础教程.[M].(美) 雅可布斯 (Jacobs;S.) ; 著.人民邮电出版社.2007,
[8]
数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,
[9]
自然语言的计算机处理.[M].冯志伟著;.上海外语教育出版社.1996,
[10]
Web信息自动抽取技术研究 [D]. 
赖春波 .
浙江大学,
2008