基于主题爬虫的本体非分类关系学习框架

被引:2
作者
乔建忠 [1 ,2 ]
机构
[1] 中国科学院国家科学图书馆
[2] 解放军艺术学院教育技术中心
关键词
本体学习; 非分类关系; 主题爬虫; 分割聚类算法; 相关度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出一种借助主题爬虫自动从返回的相关网页进行本体非分类关系学习的框架与方法。针对利用互联网进行本体学习的特点,所用到的主要方法是词频、共现统计和分割聚类算法K-Means,并没有采用复杂的语法结构分析和半指导聚类算法如EM、BIRCH和SOM,因此自动化程度和效率较高。学习结果将用于指导主题爬虫进行网页相关性的判断。这种非分类关系的学习质量将由主题爬虫在实际应用中的表现来客观评价。
引用
收藏
页码:120 / 125+129 +129
页数:7
相关论文
共 4 条
[1]  
Top 10 algorithms in data mining[J] . Xindong Wu,Vipin Kumar,J. Ross Quinlan,Joydeep Ghosh,Qiang Yang,Hiroshi Motoda,Geoffrey J. McLachlan,Angus Ng,Bing Liu,Philip S. Yu,Zhi-Hua Zhou,Michael Steinbach,David J. Hand,Dan Steinberg.Knowledge and Information Systems . 2009 (1)
[2]   Automatic building of an ontology on the basis of text corpora in Thai [J].
Imsombut, Aurawan ;
Kawtrakul, Asanee .
LANGUAGE RESOURCES AND EVALUATION, 2008, 42 (02) :137-149
[3]  
BIRCH: A New Data Clustering Algorithm and Its Applications[J] . Tian Zhang,Raghu Ramakrishnan,Miron Livny.Data Min. Knowl. Discov. . 1997 (2)
[4]  
知网. 董振东,董强. http://www.keenage.com . 1992