短语结构树库向依存结构树库转化研究

被引:35
作者
李正华
车万翔
刘挺
机构
[1] 哈尔滨工业大学计算机科学与技术学院信息检索研究室
关键词
计算机应用; 中文信息处理; 短语结构树库; 依存结构树库; 依存句法分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库PennChinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。
引用
收藏
页码:14 / 19
页数:6
相关论文
共 1 条
[1]
短语树到依存树的自动转换研究 [J].
党政法 ;
周强 .
中文信息学报, 2005, (03) :21-27