网页信息抽取及其自动文本分类的实现

被引：13

作者：

赵金仿 ^{[1
]}

赵艳 ^{[1
]}

缪建明 ^{[2
]}

机构：

[1] 江苏科技大学电子信息学院

[2] 中国科学院声学研究所

来源：

计算机技术与发展 | 2008年 / 10期

关键词：

标记; 文本分类; 信息抽取;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题。为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法。该方法可以提高网页正文提取及其自动文本分类的效率。实验证明,该方法是可行的。

引用

收藏

页码：37 / 39

页数：3

相关论文

共 5 条

[1]

网页分类技术的研究 [J].

王晓霞 ;

尹四清 .

机械工程与自动化, 2007, (01) :75-77

[2]

中文网页分类的研究与实现 [J].

程传鹏 .

中原工学院学报, 2007, (01) :61-64

[3]

一种通用HTML网页主题信息提取方法 [J].

许文 ;

都云程 ;

李渝勤 ;

施水才 .

现代图书情报技术, 2007, (01) :40-43

[4]

基于Web的网页信息抽取方法的研究 [J].

冯伟华 ;

苗长芬 .

洛阳工业高等专科学校学报, 2005, (03) :30-31

[5]

Web文本挖掘技术 [J].

郭庚麒 .

计算机与网络, 2004, (Z1) :114-116