基于Wikipedia的语义元数据生成

被引:4
作者
韩先培
赵军
机构
[1] 中国科学院自动化所模式识别国家重点实验室
基金
北京市自然科学基金;
关键词
计算机应用; 中文信息处理; 元数据; 语义元数据; 数据处理; 语料库构建; 语义标注;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
语义元数据提供数据的语义信息,在数据的理解、管理、发现和交换中起着极为重要的作用。随着互联网上数据爆炸式的增长,对自动元数据生成技术的需求也就变得更加迫切。获得目标语义元数据及得到足够的训练语料是使用自动生成技术的两个基本问题。由于获得目标语义元数据需要专家知识,而获得足够的训练语料需要大量的手工工作,这也就使得这两个问题在构建一个成功的系统时至关重要。该文基于Wikipedia来解决这两个问题:通过分析一个类别中条目的目录表(table-of-contents)来抽取目标语义元数据,通过对分析文档结构和赋予目标结构正确的语义元数据来构建训练语料库。实验结果表明,该文的方法能够有效地解决这两个问题,为进一步的大规模的语义元数据应用系统打下了坚实的基础。
引用
收藏
页码:108 / 114
页数:7
相关论文
共 4 条
[1]  
Using a web-based categorization approach to generate thematic metadata from texts[J] . Chien-Chung Huang,Shui-Lung Chuang,Lee-Feng Chien.ACM Transactions on Asian Language Information Processing (TALIP) . 2004 (3)
[2]  
A case for automated large-scale semantic annotation[J] . Stephen Dill,Nadav Eiron,David Gibson,Daniel Gruhl,R. Guha,Anant Jhingran,Tapas Kanungo,Kevin S. McCurley,Sridhar Rajagopalan,Andrew Tomkins,John A. Tomlin,Jason Y. Zien.Web Semantics: Science, Services and Agents on the World Wide Web . 2003 (1)
[3]  
CREAM: CREAting Metadata for the Semantic Web[J] . Siegfried Handschuh,Steffen Staab.Computer Networks . 2003 (5)
[4]  
Embedding knowledge in Web documents[J] . Philippe Martin,Peter Eklund.Computer Networks . 1999 (11)