基于N-Gram的专业领域中文新词识别研究

被引:10
作者
段宇锋
鞠菲
机构
[1] 华东师范大学商学院
关键词
N-Gram; 新词识别; 词频统计;
D O I
暂无
中图分类号
G254 [文献标引与编目];
学科分类号
摘要
以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频(TF)、文档频率(D)和平均词频(TF/D)对新词候选项排序,取一定范围内的候选项作为识别出的新词。实验结果表明,词频TF筛选新词候选项的识别效果最好,F值为0.65。该方法能够自动产生专业领域的用户词典,具有较强的可移植性。
引用
收藏
页码:41 / 47
页数:7
相关论文
共 18 条
[1]  
一种中文未登录词识别及词典设计新方法.[D].魏莎莎.西南大学.2011, 09
[2]  
中文新词检测与分析.[D].崔世起.中国科学院研究生院(计算技术研究所).2006, 10
[3]   基于分词提取重复串的未登录词遗漏量化模型 [J].
张海军 ;
史树敏 ;
丁溪源 ;
黄河燕 .
中文信息学报, 2011, (02) :122-128
[4]   一种基于免疫遗传算法的网络新词识别方法 [J].
丁建立 ;
慈祥 ;
黄剑雄 .
计算机科学, 2011, 38 (01) :240-245
[5]   基于N-Gram文本表达的新闻领域关键词词典构建研究 [J].
吕美香 ;
何琳 ;
李玥 ;
杨敏 ;
张越 .
情报科学, 2010, 28 (04) :571-574+615
[6]   中文新词识别技术综述 [J].
张海军 ;
史树敏 ;
朱朝勇 ;
黄河燕 .
计算机科学, 2010, 37 (03) :6-10+16
[7]   基于论坛语料识别中文未登录词的方法 [J].
都菁 ;
熊海灵 .
计算机工程与设计, 2010, 31 (03) :630-633
[8]   基于统计信息的未登录词的扩展识别方法 [J].
韩艳 ;
林煜熙 ;
姚建民 .
中文信息学报, 2009, 23 (03) :24-30+50
[9]   一种改进的统计与后串最大匹配的中文分词算法研究 [J].
吴涛 ;
张毛迪 ;
陈传波 .
计算机工程与科学, 2008, (08) :79-82
[10]   Internet中的新词识别 [J].
李钝 ;
曹元大 ;
万月亮 .
北京邮电大学学报, 2008, (01) :26-29