中文本体的自动获取与评估算法分析

被引：30

作者：

董慧

余传明

不详

机构：

[1] 武汉大学信息资源研究中心

[2] 武汉大学信息管理学院湖北

[3] 湖北

来源：

情报理论与实践 | 2005年 / 04期

关键词：

信息检索; 评估; 算法/本体; 语义网;

D O I：

暂无

中图分类号：

G254 [文献标引与编目];

学科分类号：

050302 [传播学];

摘要：

在下一代互联网,即语义网中,信息模式建立在本体描述之上。由于手工构建本体是一项工作量巨大并且繁杂的任务,因而,能否自动构建本体正逐渐成为语义网使用的关键性要素。在这样的背景下,本文对比和借鉴了国内外本体自动获取的方法和思路,将中文领域本体的提取划分为文本预处理、本体抽取和本体关系获取三个阶段。接着,本文讨论了这三个步骤所涉及的算法,包括基于统计模式对文本抽词、基于奇异值分解从词—文档矩阵中提取本体、基于语义相似度对本体进行聚类等。对于本体自动获取的效果评估,本文提出了利用计算手工和自动两种方式得到的本体相似度来进行衡量的思路。

引用

页码：415 / 418

页数：4