面向单一双语网页的双语资源挖掘方法

被引:5
作者
罗阳
季铎
张桂平
王莹莹
机构
[1] 沈阳航空航天大学知识工程中心
关键词
Web挖掘; 网页分类; 双语资源; 频繁序列模式; 支持向量机;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。该文提出一种面向单一双语网页的双语资源挖掘方法,该方法重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一双语网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,该方法能够有效改进双语资源挖掘的质量。
引用
收藏
页码:110 / 115
页数:6
相关论文
共 5 条
[1]   一种有效的基于Web的双语翻译对获取方法 [J].
郭稷 ;
吕雅娟 ;
刘群 .
中文信息学报, 2008, (06) :103-109
[2]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 .
计算机工程与应用, 2005, (01) :181-184+220
[3]   用Naive Bayes方法协调分类Web网页 [J].
范焱 ;
郑诚 ;
王清毅 ;
蔡庆生 ;
刘洁 .
软件学报, 2001, (09) :1386-1392
[4]   SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297
[5]  
Web Document Classification based on Tagged-Region Progressive Analysis .2 Lichun Sun,Mengchang Chen,et.al. Proceedings of the International Computer Symposium(ICS) . 2004