利用统计量和语言学规则提取多字词表达

被引:9
作者
刘荣
王奕凯
机构
[1] 太原理工大学外国语学院
关键词
多字词表达; 互信息; 熵; 语言学规则;
D O I
10.16355/j.cnki.issn1007-9432tyut.2011.02.017
中图分类号
H087 [数理语言学];
学科分类号
摘要
基于特定领域的语料库,利用统计和语言学规则相结合的方法提取多字词表达(Multiword expressions)。首先利用领域高频词作为种子词提取候选串,进一步利用各种统计量、多字词表达边界过滤规则对候选串进行噪声剔除,得到多字词表达。实验结果表明,该方法对于处理大规模真实文本效率很高,可以有效提高多字词表达的获取,可以更有针对性地在特定领域提取多字词表达。
引用
收藏
页码:133 / 137
页数:5
相关论文
共 5 条
  • [1] 面向机器辅助翻译的汉语语块自动抽取研究
    姜柄圭
    张秦龙
    谌贻荣
    常宝宝
    [J]. 中文信息学报, 2007, (01) : 9 - 16
  • [2] 基于字串内部结合紧密度的汉语自动抽词实验研究
    罗盛芬
    孙茂松
    [J]. 中文信息学报, 2003, (03) : 9 - 14
  • [3] 汉语语汇学[M]. 商务印书馆 , 温端政著, 2005
  • [4] Alignment-based extraction of multiword expressions[J] . Language Resources and Evaluation . 2010 (1)
  • [5] Twistin' the night away
    Jackendoff, R
    [J]. LANGUAGE, 1997, 73 (03) : 534 - 559