面向Internet的中文新词语检测

被引：167

作者：

邹纲

刘洋

刘群

孟遥

于浩

西野文人

亢世勇

机构：

[1] 中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台

来源：

中文信息学报 | 2004年 / 06期

关键词：

计算机应用; 中文信息处理; 新词语; 自动检测;

D O I：

暂无

中图分类号：

TP393.09 [];

学科分类号：

摘要：

随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。

引用

页码：1 / 9

页数：9

共 8 条

[1]

基于构词法的网络新词自动识别初探 [J].