本研究运用多层面Rasch模型从试题、考生、评卷人和评分量表等几个层面对话语填充测试方法在测试中国英语学习者的中介语语用能力中的表现进行了研究。197名中国大学生和24名英语本族语者参与了本研究。结果表明,两位评卷人在评分严厉程度上存在差异,但这种差异并不会影响最后结果的信度。试题的各个题目的难度有显著意义的区别,但是所有题目都和Rasch模型拟合。考生做题时表现出一定的差异,但总体来说他们的表现基本上是一致的。虽然本研究使用的评分量表有需改进的地方,但还是能够较好地区分考生的能力,基本上达到了预期的目的。