中文维基百科的结构化信息抽取及词语相关度计算方法

被引：23

作者：

涂新辉 ^{[1
,2
]}

张红春 ^{[1
,2
]}

周琨峰 ^{[1
,2
]}

何婷婷 ^{[1
,2
]}

机构：

[1] 华中师范大学计算机科学系

[2] 国家语言资源监测与研究中心网络媒体语言分中心

来源：

中文信息学报 | 2012年 / 03期

基金：

国家自然科学基金重大研究计划;

关键词：

语义相关度; 中文维基百科; 结构化信息;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。

引用

页码：109 / 115

页数：7