面向WI输入法的新词发现技术研究与实现

被引:0
作者
周春波
机构
[1] 哈尔滨工业大学
关键词
新词发现; 输入法; 最大流最小割; N元递增分步;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
拼音输入法通过输入拼音串转换为汉字串,转换的准确率很大程度上取决于词典是否涵盖常用词汇,特别是一些新兴词汇。手工向词典中加入新词费时费力,而新词发现技术则从大规模文本中自动挖掘新词,具有自动化、易于发现热门词汇等特点。本文将探讨新词发现技术,并将挖掘出来的新词添加到输入法词典中以期提高输入法的音字转换准确率。 本文首先探讨了两类新词的挖掘方法:情感词以及商品词。在情感词挖掘中,本文提出基于最大流最小割原理的迭代中文情感词挖掘方法,实验结果显示,基于该思想在挖掘主观词方面具有较强能力,其性能高于传统的基于统计模型的主观词挖掘方法;在商品词挖掘中,本文选择用户在购物网站上的搜索日志作为发现商品词的数据来源,并根据搜索日志的数据特点,在对用户查询(query)的自然分词基础上,采用N元递增分步算法和串频统计,计算候选串的条件概率,选择候选商品词。 最后,本文介绍了针对“苹果”公司iOS平台的输入法开发的相关流程,并展示了新词发现技术在WI输入法中发挥的重要作用。WI输入法是哈尔滨工业大学计算机学院语言技术中心网络智能研究室研发的一款面向苹果平台的中文语句级输入法。它的第一个版本于2010年11月11日发布,目前已有用户12万以上,其输入的准确性、流畅性等获得了用户的广泛好评。
引用
收藏
页数:55
共 30 条
[1]
基于同义词词林的词汇褒贬计算.[A].路斌;万小军;杨建武;陈晓鸥;.第七届中文信息处理国际会议.2007,
[2]
汉语情感词语义倾向判别的研究.[A].姚天昉;娄德成;.第七届中文信息处理国际会议.2007,
[3]
汉语新词语发现及其词性标注方法研究 [D]. 
杨辉 .
复旦大学,
2008
[4]
论新词的发展 [D]. 
邱明娟 .
南京师范大学,
2007
[5]
基于动态流通语料库的VSM新词发现策略.[A].颜伟;.2004年辞书与数字化研讨会.2004,
[6]
新词语自动识别方法研究.[A].郑家恒;李文花;.全国第六届计算语言学联合学术会议.2001,
[7]
新词语大词典.[M].亢世勇;刘海润主编;.上海辞书出版社.2003,
[8]
当代汉语新词语研究 [D]. 
刘晓梅 .
厦门大学,
2003
[9]
一种基于免疫遗传算法的网络新词识别方法 [J].
丁建立 ;
慈祥 ;
黄剑雄 .
计算机科学, 2011, 38 (01) :240-245
[10]
Chinese New Word Identification:A Latent Discriminative Model with Global Features [J].
孙晓 ;
黄德根 ;
宋海玉 ;
任福继 .
Journal of Computer Science & Technology, 2011, 26 (01) :14-24