基于搜索引擎的知识发现

被引:2
作者
马玉春
宋瀚涛
机构
[1] 北京理工大学计算机系
[2] 北京理工大学计算机系 北京
[3] 北京
关键词
搜索引擎; 文本聚类; episode; 信息抽取; 知识发现;
D O I
暂无
中图分类号
TP311 [程序设计、软件工程];
学科分类号
081202 ; 0835 ;
摘要
数据挖掘一般用于高度结构化的大型数据库,以发现其中所蕴含的知识。随着在线文本的增多,其中所蕴含的知识也越来越丰富,但是,它们却难以被分析利用。因而,研究一套行之有效的方案发现文本中所蕴含的知识是非常重要的,也是当前重要的研究课题。该文利用搜索引擎Google获取相关Web页面,进行过滤和清洗后得到相关文本,然后,进行文本聚类,利用Episode进行事件识别和信息抽取,数据集成及数据挖掘,从而实现知识发现。最后给出了原型系统,对知识发现进行实践检验,收到了很好的效果。
引用
收藏
页码:178 / 180+220 +220
页数:4
相关论文
共 7 条
[1]  
Webminingresearch:Asurvey. RaymondKosala,HendrikBlockeel. SIGKDDExplorations . 2000
[2]  
Google. http://www.google.com/ . 2003
[3]  
TheAnatomyofaLarge-scaleHyper-textualWebSearchEngine. SergeyBrin,LawrencePage. Computer Networks . 1998
[4]  
AVectorSpaceModelforAutomaticIndexing. SaltonG,WongA,YoungCS. CommunicationsoftheACM . 1975
[5]  
ReexaminingtheClusterHypothesis:Scatter/GatheronRetrievalResults. HearstMA,PedersenJ. Procofthe19thAnnualIntACM/SIGIRConf .
[6]  
ApplyingDataMiningTechniquesinTextAnalysis. HAhonen,OHeinonen. ReportC-1997-23,UniversityofHelsinki,DepartmentofComputerScience . 1997
[7]  
TextMiningwithInformationExtraction. UNahm,RMooney. ProceedingsoftheAAAI2002SpringSymposiumonMiningAn-swersfromTextsandKnowledge Bases . 2002