中文信息处理中的分词问题

被引：90

作者：

黄昌宁

机构：

[1] 清华大学计算机科学与技术系

来源：

语言文字应用 | 1997年 / 01期

关键词：

分词; 汉语文本; 文本分类; 自动文摘; 计算机; 词表; 现代汉语; 词汇表; 中文信息处理; 自动分词系统;

D O I：

10.16499/j.cnki.1003-5397.1997.01.017

中图分类号：

TP391 [信息处理（信息加工）];

学科分类号：

摘要：

在中文信息处理的众多应用领域中，从最底层的键盘、语音和字符识别等各类汉字输入方法，到最高层的各种汉语理解系统，都不可能完全摆脱汉语文本分词处理的困扰。分词问题已成为当前中文信息处理的一个瓶颈。没有一种公认的分词标准，是人和计算机共同面临的困难。如果在这个问题上不能尽快达成共识，那么在词表和带标注的语料库等重要信息资源上就不可能做到共享与复用，势必造成重复开发的严重浪费。当务之急是制定一份与分词规范相配合的汉语通用词表

引用

页数：7