学术英语文本中连续短语单位的提取方法

被引:8
作者
李晶洁 [1 ]
卫乃兴 [2 ]
机构
[1] 上海交通大学外国语学院
[2] 上海交通大学语言文字工程研究所
关键词
连续短语单位; 假拟二元序列转化; 概率均值加权法; 熵; 互信息;
D O I
暂无
中图分类号
H314 [语法];
学科分类号
摘要
现有的语料库检索软件和统计手段多用于计算两个单词之间的搭配力,而如何测量多个单词之间的黏着力是语料库语言学尚未解决的问题。本文提出新的算法以一阶隐马尔可夫过程为基点,进一步结合Silva和Lopes的"假拟二元序列转化"理论,并以新JDEST语料库为测量对象。通过检验和比较,新算法能够较为有效地改进短语单位的识别与界定,提高计算机自动提取连续短语单位的准确性。
引用
收藏
页码:45 / 49+54+127 +54
页数:7
相关论文
共 1 条