面向单一双语网页的双语资源挖掘方法

被引：5

作者：

罗阳

季铎

张桂平

王莹莹

机构：

[1] 沈阳航空航天大学知识工程中心

来源：

中文信息学报 | 2011年 / 01期

关键词：

Web挖掘; 网页分类; 双语资源; 频繁序列模式; 支持向量机;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。该文提出一种面向单一双语网页的双语资源挖掘方法,该方法重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一双语网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,该方法能够有效改进双语资源挖掘的质量。

引用

页码：110 / 115

页数：6

共 5 条

[1] 一种有效的基于Web的双语翻译对获取方法 [J].

郭稷 ;

吕雅娟 ;

刘群 .

中文信息学报, 2008, (06) :103-109

[2] 文本自动分类中特征权重算法的改进研究 [J].

徐凤亚 ;

罗振声 .

计算机工程与应用, 2005, (01) :181-184+220

[3] 用Naive Bayes方法协调分类Web网页 [J].

范焱 ;

郑诚 ;

王清毅 ;

蔡庆生 ;

刘洁 .

软件学报, 2001, (09) :1386-1392

[4] SUPPORT-VECTOR NETWORKS [J].

CORTES, C ;

VAPNIK, V .

MACHINE LEARNING, 1995, 20 (03) :273-297

[5]

Web Document Classification based on Tagged-Region Progressive Analysis .2 Lichun Sun,Mengchang Chen,et.al. Proceedings of the International Computer Symposium(ICS) . 2004

← 1 →