基于N-Gram的专业领域中文新词识别研究

被引：10

作者：

段宇锋

鞠菲

机构：

[1] 华东师范大学商学院

来源：

现代图书情报技术 | 2012年 / 02期

关键词：

N-Gram; 新词识别; 词频统计;

D O I：

暂无

中图分类号：

G254 [文献标引与编目];

学科分类号：

摘要：

以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频(TF)、文档频率(D)和平均词频(TF/D)对新词候选项排序,取一定范围内的候选项作为识别出的新词。实验结果表明,词频TF筛选新词候选项的识别效果最好,F值为0.65。该方法能够自动产生专业领域的用户词典,具有较强的可移植性。

引用

页码：41 / 47

页数：7

共 18 条

[1]

一种中文未登录词识别及词典设计新方法.[D].魏莎莎.西南大学.2011, 09

[2]

中文新词检测与分析.[D].崔世起.中国科学院研究生院（计算技术研究所）.2006, 10

[3] 基于分词提取重复串的未登录词遗漏量化模型 [J].