利用统计量和语言学规则提取多字词表达

被引：9

作者：

刘荣

王奕凯

机构：

[1] 太原理工大学外国语学院

来源：

太原理工大学学报 | 2011年 / 42卷 / 02期

关键词：

多字词表达; 互信息; 熵; 语言学规则;

D O I：

10.16355/j.cnki.issn1007-9432tyut.2011.02.017

中图分类号：

H087 [数理语言学];

学科分类号：

摘要：

基于特定领域的语料库,利用统计和语言学规则相结合的方法提取多字词表达(Multiword expressions)。首先利用领域高频词作为种子词提取候选串,进一步利用各种统计量、多字词表达边界过滤规则对候选串进行噪声剔除,得到多字词表达。实验结果表明,该方法对于处理大规模真实文本效率很高,可以有效提高多字词表达的获取,可以更有针对性地在特定领域提取多字词表达。

引用

页码：133 / 137

页数：5

共 5 条

[1] 面向机器辅助翻译的汉语语块自动抽取研究
姜柄圭
张秦龙
谌贻荣
常宝宝
[J]. 中文信息学报, 2007, (01) : 9 - 16
[2] 基于字串内部结合紧密度的汉语自动抽词实验研究
罗盛芬
孙茂松
[J]. 中文信息学报, 2003, (03) : 9 - 14
[3] 汉语语汇学[M]. 商务印书馆 , 温端政著, 2005
[4] Alignment-based extraction of multiword expressions[J] . Language Resources and Evaluation . 2010 (1)
[5] Twistin' the night away
Jackendoff, R
[J]. LANGUAGE, 1997, 73 (03) : 534 - 559

← 1 →