SMS-2008标注中文短信息库

被引:5
作者
马旭 [1 ]
徐蔚然 [2 ]
郭军 [2 ]
胡日勒 [3 ]
机构
[1] 北京大学医学部
[2] 北京邮电大学信息与通信工程学院
[3] 诺基亚中国研究中心
关键词
计算机应用; 中文信息处理; 中文短信息; 标注语料库;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
随着短信息应用的普及,用户、运营商及政府管理部门均迫切需要智能短信处理工具。语料库是研究算法,开发系统,测试性能等必不可少的基础资源。但受到技术、版权保护、隐私权利等种种原因,目前还没有公开的标准短信息语料库。SMS-2008标注短信息库是本项目组在国内外率先建立的多用途中文短信息语料库,它包括原始语料库、预处理语料库、隐私标注语料库、内容标注语料库、错误标注语料库等。该语料库可用于短信语言现象研究、短信分类过滤算法研究、隐私保护算法研究、自动纠错算法研究等。
引用
收藏
页码:22 / 26
页数:5
相关论文
共 4 条
[1]
北京大学现代汉语语料库基本加工规范 [J].
俞士汶 ;
段慧明 ;
朱学锋 ;
孙斌 .
中文信息学报, 2002, (05) :49-64
[2]
短文本语言计算的关键技术研究 [D]. 
龚才春 .
中国科学院研究生院(计算技术研究所),
2008
[3]
The classification on short message.[J].Jun GUO.The Journal of China Universities of Posts and Telecommunications.2007,
[4]
现代汉语语法信息词典详解.[M].俞士汶等著;.清华大学出版社.1998,