基于搜索引擎的知识发现

被引：2

作者：

马玉春

宋瀚涛

机构：

[1] 北京理工大学计算机系

[2] 北京理工大学计算机系北京

[3] 北京

来源：

计算机工程与应用 | 2004年 / 30期

关键词：

搜索引擎; 文本聚类; episode; 信息抽取; 知识发现;

D O I：

暂无

中图分类号：

TP311 [程序设计、软件工程];

学科分类号：

081202 ; 0835 ;

摘要：

数据挖掘一般用于高度结构化的大型数据库,以发现其中所蕴含的知识。随着在线文本的增多,其中所蕴含的知识也越来越丰富,但是,它们却难以被分析利用。因而,研究一套行之有效的方案发现文本中所蕴含的知识是非常重要的,也是当前重要的研究课题。该文利用搜索引擎Google获取相关Web页面,进行过滤和清洗后得到相关文本,然后,进行文本聚类,利用Episode进行事件识别和信息抽取,数据集成及数据挖掘,从而实现知识发现。最后给出了原型系统,对知识发现进行实践检验,收到了很好的效果。

引用

页码：178 / 180+220 +220

页数：4

共 7 条

[1]

Webminingresearch:Asurvey. RaymondKosala,HendrikBlockeel. SIGKDDExplorations . 2000

[2]

Google. http://www.google.com/ . 2003

[3]

TheAnatomyofaLarge-scaleHyper-textualWebSearchEngine. SergeyBrin,LawrencePage. Computer Networks . 1998

[4]

AVectorSpaceModelforAutomaticIndexing. SaltonG,WongA,YoungCS. CommunicationsoftheACM . 1975

[5]

ReexaminingtheClusterHypothesis:Scatter/GatheronRetrievalResults. HearstMA,PedersenJ. Procofthe19thAnnualIntACM/SIGIRConf .

[6]

ApplyingDataMiningTechniquesinTextAnalysis. HAhonen,OHeinonen. ReportC-1997-23,UniversityofHelsinki,DepartmentofComputerScience . 1997

[7]

TextMiningwithInformationExtraction. UNahm,RMooney. ProceedingsoftheAAAI2002SpringSymposiumonMiningAn-swersfromTextsandKnowledge Bases . 2002

← 1 →