企业关系挖掘技术研究

被引:0
作者
郭凯
机构
[1] 哈尔滨工业大学
关键词
信息抽取; Ontology; 企业关系; 本体构建; 语义推理;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
随着互联网电子商务的兴起,越来越多的企业将企业信息发布在网络上。这种渠道使企业的经营市场不再受时间和空间的限制,各企业无论大小拥有一样的信息资源。但是对于企业而言,如何从浩瀚的Internet上获取感兴趣的企业信息,如何寻找企业的潜在竞争对手及潜在合作企业,对企业的经营决策和生存发展都有着极其重要的意义,企业关系挖掘技术研究就是在这一环境下产生的。 本文的研究工作包含两方面内容:企业信息抽取和关系挖掘。本文利用了基于DOM的抽取方法抽取企业信息。首先利用网络爬虫从企业门户网站爬取企业网页,由于来自同一个网站的网页在结构上具有很大的相似性。本文利用DOM Tree对企业网页进行解析,首先借用HTML Tidy将HTML格式网页转化为XML格式,然后根据规则进行信息节点定位,抽取需要的企业数据信息。 在关系挖掘上尝试了两种方法:基于文本相似度的方法和基于领域Ontology的方法。基于文本相似度的方法利用抽取的部分企业信息作为代表企业的文本,将企业间的文本相似度值作为判定企业竞争关系的依据。本文中以向量空间模型表示企业文本并进行文本相似度计算,并基于此方法进行了实验验证。 基于领域Ontology的企业关系挖掘首先对所分析的产品领域构建领域本体,本文详细分析了领域本体的构建过程并借助斯坦福大学开发的Protégé本体构建工具针对计算机领域构建了一个Ontology,并利用Jena解析Ontology文件。通过设定规则对产品的关系产品进行推理查询,针对企业产品查询其相关联产品。因为企业关系通常体现在企业经营产品的关系上,本文中借助Ontology推理出的产品关系判定企业关系。实验证明,这种方法相比基于文本的方法在准确率和召回率上都有显著提高。
引用
收藏
页数:57
共 15 条
[1]
基于Ontology的个性化信息服务方法研究 [D]. 
刘志伟 .
哈尔滨工业大学,
2006
[2]
基于领域本体的多层次服务综合匹配 [J].
朱益琼 ;
蔡鸿明 ;
姜丽红 .
计算机工程与应用 , 2007, (10) :128-131+173
[3]
基于顶层本体的领域本体综合构建方法研究 [J].
丁晟春 ;
李岳盟 ;
甘利人 .
情报理论与实践 , 2007, (02) :236-240
[4]
基于本体的法律知识库的研究与实现 [J].
何庆 ;
汤庸 ;
黄永钊 .
计算机科学, 2007, (02) :175-177
[5]
基于形式概念分析的领域本体构建方法研究 [J].
黄美丽 ;
刘宗田 .
计算机科学, 2006, (01) :210-212+239
[6]
领域本体建立的方法研究 [J].
汪方胜 ;
侯立文 ;
蒋馥 ;
不详 .
情报科学 , 2005, (02) :241-244
[7]
多语种投资信息抽取系统的实现 [J].
李芳 ;
盛焕烨 ;
张冬茉 ;
不详 .
上海交通大学学报 , 2004, (01) :21-25
[8]
基于领域知识重用的虚拟领域本体构造 [J].
陈刚 ;
陆汝钤 ;
金芝 .
软件学报, 2003, (03) :350-355
[9]
Ontology研究综述 [J].
邓志鸿 ;
唐世渭 ;
张铭 ;
杨冬青 ;
陈捷 .
北京大学学报(自然科学版), 2002, (05) :730-738
[10]
基于Ontology的智能信息检索 [J].
徐振宁 ;
张维明 ;
陈文伟 .
计算机科学, 2001, (06) :21-26+44