基于本体的文档语义标注改进方法

被引:19
作者
陈叶旺
李文
彭鑫
赵文耘
机构
[1] 复旦大学计算机科学技术学院
基金
国家高技术研究发展计划(863计划);
关键词
本体; 语义环境; 语义标注;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在领域本体知识的语义环境和资源文档结构基础上,提出一种文档语义标注改进方法,分析、计算标签-文档的词频相关性和语义环境在局部窗口的共现性,实现对各类文档资源的语义标注.该方法首先提取出文档资源的纯文本内容,并分解出子句、句和段落集合.然后,对于每个具体的领域知识项,在本体知识库中寻找其语义环境信息.最后,按照7条相关度规则,分别计算出这些信息与分解后文档内容的相关度,从而完成整个文档库内和知识库内的综合计算,得到该项知识与文档资源的最终相关度.实验结果显示,该方法能够依据领域本体,有效地对互联网中大量以网页等形式存在的多种类文档知识资源进行自动语义标注.
引用
收藏
页码:1109 / 1113
页数:5
相关论文
共 2 条