基于选择倾向性的词汇获取方法

被引:7
作者
王大亮 [1 ]
蒋宏潮 [1 ]
涂序彦 [1 ]
郑雪峰 [1 ]
佟子健 [2 ]
机构
[1] 北京科技大学信息工程学院
[2] 搜狐研发中心
关键词
自然语言处理; 词汇获取; 新词发现; 选择倾向性; 统计评价方法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
120506 [数字人文]; 140502 [人工智能];
摘要
通过分析几种统计评价方法发现,互信息法可用于衡量二元独立性,淘汰机会二元组;χ2检验能更合理地评价词汇组合的选择倾向性,获取频繁二元组发现;对数似然比检验可以有效获取稀疏二元组,弥补其他方法无法克服的稀疏数据问题。将互信息、χ2检验、对数似然比检验组合,并加入词汇子范畴框架的启发式规则,提出一个层次分明的综合多种统计评价方法的词汇获取方法。
引用
收藏
页码:169 / 171
页数:3
相关论文
empty
未找到相关数据