基于大规模语料的新词语识别方法

被引:14
作者
施水才
俞鸿魁
吕学强
李渝勤
机构
[1] 北京信息科技大学中文信息处理研究中心
关键词
新词语; 流行语; 语料库;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的系统,可以抽取不限长度不限领域的新词语.
引用
收藏
页码:43 / 45
页数:3
相关论文
共 3 条
[1]
关于词汇使用度的初步研究 [J].
孙茂松 .
语言文字应用, 2000, (01) :6-10
[2]
关于大规模真实文本语料库的几点理论思考 [J].
张普 .
语言文字应用, 1999, (01)
[3]
基于机器学习的无需人工编制词典的切词系统 [J].
黄萱菁 ;
吴立德 ;
王文欣 ;
叶丹瑾 .
模式识别与人工智能, 1996, 9 (04) :297-303