基于迭代算法的新词识别

被引：18

作者：

赵小宝

张华平

机构：

[1] 北京理工大学计算机学院

来源：

计算机工程 | 2014年 / 40卷 / 07期

关键词：

对偶原理; 新词识别; 迭代算法; 信息熵; 重复模式; 中文词语搭配库;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

新词识别是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来较大困难。受对偶原理的启发,提出一种基于迭代算法的新词识别算法。对目标语料进行分词和词性标注,通过两遍扫描进行字符串统计并提取重复模式。结合词语结构的特征,迭代使用重复模式互信息、左(右)熵,左(右)邻右(左)平均熵等特征进行新词识别,获得候选新词列表。利用中文词语搭配库对候选新词列表进行最后一次过滤得到最终新词列表。实验结果表明,利用该方法进行新词识别,P@10值达到100%,P@100值提高至90%,左(右)邻右(左)平均熵可在一定程度上提高新词识别的准确率。

引用

页码：154 / 158+164 +164

页数：6

共 8 条

[1]

语法讲义.[M].朱德熙[著];.商务印书馆.1982,

[2]

基于上下文感知的中文新词识别算法 [J].