基于信息计算的英语易读性研究及IRMS应用系统开发

被引:0
作者
邢富坤
机构
[1] 中国人民解放军外国语学院
关键词
易读性; 信息论; 熵; 语言模型; 语料库; IRMS应用系统;
D O I
暂无
年度学位
2007
学位类型
硕士
摘要
英语易读性研究有着悠久的历史,其研究成果在教育、军事、出版等领域都发挥着重要作用,但由于传统易读性测量公式普遍存在测量准确性不高、测量范围受限以及测量变量缺失等问题而饱受责难与批评。本课题在系统总结和分析前人研究成果的基础上,将信息论引入英语易读性研究之中,利用信息计算的方法进行易读性研究,不仅提出并检验了影响易读性的关键信息变量,并且在大量训练语料的基础上构建出基于信息计算的易读性测量模型,同时还利用数据库技术和VB.NET 2005开发环境开发出易读性测量应用系统(Information-based Readability Measuring System,简称IRMS应用系统)。 本课题从信息计算的角度对易读性展开研究,克服了传统易读性研究方法的不足,解决了许多在传统研究框架下无法解决的问题。这主要表现在: (1)本课题构建的易读性测量模型没有采用传统模型中常用的词长、句长等变量,而是利用信息论的研究成果,并结合自然语言处理技术,提出词熵、句熵、语篇信息量等新的变量,并通过构建n元概率语言模型(n=1、2、3)对这些变量进行定量测量,弥补了传统研究中将语篇中的词语孤立看待和难以细致描写语言特征的不足; (2)根据阅读时间是否受限,将阅读环境划分为受限环境和非受限环境,并通过对语篇信息量的有效控制,将阅读环境纳入到易读性测量之中,弥补了传统研究中阅读环境变量缺失的不足; (3)根据底层语料库所代表的不同语言特征,通过构建n元概率语言模型来定量描写不同读者(群)的特征,从而将读者因素有效纳入到易读性研究之中,弥补了传统研究中读者因素缺失的不足。本课题的研究框架是: 1、导言。简要介绍易读性研究的内容和意义,并对本课题的研究框架进行整体描述。 2、研究综述。系统总结易读性研究的意义以及易读性研究在国内外开展的情况,重点分析了传统易读性研究中存在的主要问题,并指出传统研究方法的缺陷是导致这些问题的主要原因。在此基础上,从认知理论和信息传播理论的角度,系统分析了阅读过程,并得出影响语篇易读性的深层次因素是文本相对于读者所负载的信息而非文本自身的结论。 3、信息及自然语言的信息计算。简要介绍信息及其度量方法,重点分析自然语言研究中的主要信息变量,如语篇信息量、词熵、句熵等变量的定义和度量方法。 4、研究假设和研究方法。根据传统研究成果,结合信息计算的特征变量,本课题提出了与易读性测量有关的语义因素、句法因素、环境因素和读者因素的四个研究假设,然后从构建语言模型、选择训练语料和测试语料、检验假设、构建模型、检验模型、对比研究等关键环节详细描述了研究过程和研究方法。 5、实验结果报告。首先根据在训练语料上的测量结果,分析并检验了四个假设,得出了与易读性直接相关的变量;然后,根据这些变量与易读性之间存在的线性相关关系以及在训练语料上的测量数据,利用最小二乘法求解线性模型系数,从而构建出易读性测量模型,并对其进行拟合优度检验和回归显著性检验(F检验);此外,还利用测试语料,对构建出的测量模型进行检验,并与传统易读性公式ARI(Automated Readability Index)的测量结果进行对比分析。 6、结果讨论。对本课题的研究进行全面总结,主要是针对易读性测量模型的主要优点以及存在的不足进行分析,并提出相应的对策。 7、应用系统介绍。主要介绍应用系统的安装方法、用户界面以及使用方法等。 8、总结展望。主要分析本课题研究的创新点和研究成果的价值,并对未来的研究工作进行展望。 经过在多种测试语料上的检验以及与传统测量模型ARI的对比研究,结果显示本课题构建的测量模型具有测量准确性高、测量范围广、测量变量齐全等特点,是对传统测量方法的重要突破,该研究成果不仅对优化教学过程,整合教学资源,提高教学效率和效果有着重要意义,而且对于非英语语种开展易读性研究有着重要的方法层面的指导意义,能够促进易读性研究在其他语种的深入开展。
引用
收藏
页数:127
共 32 条
[1]
计算机辅助易读度研究 [D]. 
晏生宏 .
重庆大学,
2004
[2]
英语语篇结构及其信息处理的功能研究 [D]. 
刘燕 .
西南交通大学,
2003
[3]
大学英语四、六级考试和研究生入学考试中阅读理解的对比分析 [D]. 
解晶 .
大连海事大学,
2001
[4]
基于N元语言模型的文本分类方法 [J].
周新栋 ;
王挺 .
计算机应用, 2005, (01) :11-13+16
[5]
基于统计的语言处理模型的局限性 [J].
袁毓林 .
语言文字应用, 2004, (02) :99-108
[6]
以概率为基础的语言研究 [J].
桂诗春 .
外语教学与研究, 2004, (01) :3-9+81
[7]
信息结构研究中的已知信息 [J].
鞠玉梅 .
天津外国语学院学报, 2003, (05) :33-39
[8]
大学英语教材难度比较研究 [J].
邓昭春 ;
段方 ;
张萍 .
中国大学教学, 2002, (Z2) :57-59+62
[9]
自然语言处理技术的三个里程碑 [J].
黄昌宁 ;
张小凤 .
外语教学与研究, 2002, (03) :180-187+239
[10]
N-gram统计模型在机器翻译系统中的应用 [J].
张健 ;
李素建 ;
刘群 .
计算机工程与应用, 2002, (08) :73-75+78