汉语处理的基础工程——现代汉语词频统计

被引:29
作者
刘源
梁南元
机构
[1] 北京航空学院计算机科学与工程系
关键词
分词; 精度; 计算机; 软件系统; 社会科学; 自然科学; 科学技术; 语言统计; 词频统计; 分词词典; 现代汉语;
D O I
暂无
中图分类号
学科分类号
摘要
汉语词频统计是汉语言处理的一项基础工程。汉语词汇量巨大,人工统计精度上难以保证。由于存在编码输入、分词等方面的困难,直到八十年代初期,我国才开始利用计算机进行汉语分词、统计的研究。“现代汉语词频统计”是由北京航空学院等11个单位研制成功的、规模巨大的汉语基础工程。它选取汉语材料约三亿字,从中抽样输入了二千余万汉字,并对之进行了计算机自动分词和频度统计。它首次实现了一个汉语自动分词系统—CDWS,建立了一个有十三余万词条的计算机词典,研制了一个有五十二个属性的汉字信息库。
引用
收藏
页码:17 / 25
页数:9
相关论文
共 2 条
[1]  
现代汉语词表.[M].刘源 主编;马广申等 编.中国标准出版社.1984,
[2]  
汉语语法分析问题.[M].吕叔湘 著.商务印书馆.1979,