面向Internet的中文新词语检测

被引:167
作者
邹纲
刘洋
刘群
孟遥
于浩
西野文人
亢世勇
机构
[1] 中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
关键词
计算机应用; 中文信息处理; 新词语; 自动检测;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
摘要
随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。
引用
收藏
页码:1 / 9
页数:9
相关论文
共 8 条
[1]
基于构词法的网络新词自动识别初探 [J].
郑家恒 ;
李文花 .
山西大学学报(自然科学版), 2002, (02) :115-119
[2]
一种新的基于统计的词典扩展方法 [J].
周正宇 ;
李宗葛 .
中文信息学报, 2001, (05) :46-51
[3]
无词典高频字串快速提取和统计算法研究 [J].
韩客松 ;
王永成 ;
陈桂林 .
中文信息学报, 2001, (02) :23-30
[5]
串频统计和词形匹配相结合的汉语自动分词系统 [J].
刘挺 ;
吴岩 ;
王开铸 .
中文信息学报, 1998, (01)
[6]
基于机器学习的无需人工编制词典的切词系统 [J].
黄萱菁 ;
吴立德 ;
王文欣 ;
叶丹瑾 .
模式识别与人工智能, 1996, 9 (04) :297-303
[7]
自动新词提取方法和系统 [P]. 
沈丽琴 ;
施勤 ;
柴海新 .
中国专利 :CN1340804A ,2002-03-20
[8]
语言计算与基于内容的文本处理.[M].孙茂松;陈群秀主编;.清华大学出版社.2003,