学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
汉语处理的基础工程——现代汉语词频统计
被引:29
作者
:
论文数:
引用数:
h-index:
机构:
刘源
梁南元
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空学院计算机科学与工程系
梁南元
机构
:
[1]
北京航空学院计算机科学与工程系
来源
:
中文信息学报
|
1986年
/ 01期
关键词
:
分词;
精度;
计算机;
软件系统;
社会科学;
自然科学;
科学技术;
语言统计;
词频统计;
分词词典;
现代汉语;
D O I
:
暂无
中图分类号
:
学科分类号
:
摘要
:
汉语词频统计是汉语言处理的一项基础工程。汉语词汇量巨大,人工统计精度上难以保证。由于存在编码输入、分词等方面的困难,直到八十年代初期,我国才开始利用计算机进行汉语分词、统计的研究。“现代汉语词频统计”是由北京航空学院等11个单位研制成功的、规模巨大的汉语基础工程。它选取汉语材料约三亿字,从中抽样输入了二千余万汉字,并对之进行了计算机自动分词和频度统计。它首次实现了一个汉语自动分词系统—CDWS,建立了一个有十三余万词条的计算机词典,研制了一个有五十二个属性的汉字信息库。
引用
收藏
页码:17 / 25
页数:9
相关论文
共 2 条
[1]
现代汉语词表.[M].刘源 主编;马广申等 编.中国标准出版社.1984,
[2]
汉语语法分析问题.[M].吕叔湘 著.商务印书馆.1979,
←
1
→
共 2 条
[1]
现代汉语词表.[M].刘源 主编;马广申等 编.中国标准出版社.1984,
[2]
汉语语法分析问题.[M].吕叔湘 著.商务印书馆.1979,
←
1
→