基于XML的信息抽取和多层向量空间技术研究

被引:5
作者
仲华
崔志明
机构
[1] 苏州大学计算机科学与技术学院
关键词
XML架构; 信息抽取; N层向量空间模型;
D O I
暂无
中图分类号
TP312.2 []; TP393.092 [];
学科分类号
摘要
在分析了传统索引技术的缺陷的基础上,提出了一种基于XML架构信息抽取的多层向量空间的模型,重点阐述了如何建立一个基于XML的Web信息抽取平台,从构造知识库、网页优化和信息抽取这三方面进行研究,并阐述了基于XML的多层向量空间模型及其形成。通过这种技术不仅使网页内容得到了清晰的剖析和抽取,更能大大提高对Web网页文档检索效率和准确率。目的在于寻求一种更为高效简洁的检索方法。
引用
收藏
页码:49 / 52
页数:4
相关论文
共 6 条
[1]
一种基于XML的Web信息抽取方法 [J].
李剑波 ;
李小华 ;
董树明 ;
杨科华 .
情报杂志, 2006, (08) :49-51
[2]
向量空间模型信息检索技术讨论 [J].
刘斌 ;
陈桦 .
情报杂志, 2006, (07) :92-93+91
[3]
浅析可扩展置标语言XML [J].
李萍 .
运城学院学报, 2005, (05) :58-59
[4]
基于XML的网页信息自动抽取 [J].
周津 ;
朱明 ;
郑全 .
计算机应用, 2004, (S1) :225-227
[5]
多信息块Web页面中的抽取规则 [J].
王庆一 ;
王继成 ;
周源远 ;
袁春风 .
计算机工程, 2003, (09) :42-44+50
[6]
标记语言及HTML和XML的比较分析 [J].
王伟 .
现代图书情报技术, 2000, (05) :22-24