基于《知网》义原搭配的中文文本语义级自动查错研究

被引:12
作者
郭充
张仰森
机构
[1] 北京信息科技大学计算机学院智能信息处理研究所
基金
北京市自然科学基金;
关键词
语义搭配错误; 互信息; 知网; 义原; 语义知识库;
D O I
10.16208/j.issn1000-7024.2010.17.030
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
语义级的自动查错一直是汉语文本自动校对技术的难点。针对汉语文本中的语义搭配错误,提出了一种基于《知网》义原搭配的有效的自动查错方法,主要包括语义知识库的构建和自动查错算法。语义知识库的构建分为两步:①根据规则从训练语料中统计出大量的动词与名词之间的二元搭配组合,并利用互信息等因素筛选记录;②利用《知网》对词语义项的义原描述(对于动词抽取其义项中的主义原,名词抽取其义项中的主义原和常见的4个辅助义原),将动词与名词的二元搭配组合转变为义原之间相互制约的多元组合。在语义知识库的基础上设计相应的自动查错算法。实验结果显示,该方法的召回率为35%,精确率为82.3%,具有较好的应用前景。
引用
收藏
页码:3924 / 3928
页数:5
相关论文
共 9 条
[1]  
基于二元组合文法的语义知识库构建.[D].徐忠明.山东大学.2008, 01
[2]   试论“语义搭配的可能性” [J].
尹邦才 .
理论观察, 2008, (06) :134-135
[3]   一种反映词语相关度语义库的构建方法 [J].
徐南轩 ;
邹恒明 .
上海交通大学学报, 2008, (07) :1129-1132
[4]   基于规则与统计相结合的中文文本自动查错模型与算法 [J].
张仰森 ;
曹元大 ;
俞士汶 .
中文信息学报, 2006, (04) :1-7+55
[5]   文本自动校对技术研究综述 [J].
张仰森 ;
俞士汶 .
计算机应用研究, 2006, (06) :8-12
[6]   语义校对系统中的句子语义骨架模糊匹配算法 [J].
郑逢斌 ;
陈志国 ;
姜保庆 ;
乔保军 .
电子学报, 2003, (08) :1138-1140
[7]   中文文本自动校对的语义级查错研究 [J].
骆卫华 ;
罗振声 ;
龚小谨 ;
不详 .
计算机工程与应用 , 2003, (12) :115-118
[8]   汉语基本短语的自动识别 [J].
张昱琪 ;
周强 .
中文信息学报, 2002, (06) :1-8