基于大规模语料的新词语识别方法

被引：14

作者：

施水才

俞鸿魁

吕学强

李渝勤

机构：

[1] 北京信息科技大学中文信息处理研究中心

来源：

山东大学学报(理学版) | 2006年 / 03期

关键词：

新词语; 流行语; 语料库;

D O I：

暂无

中图分类号：

TP391.43 [];

学科分类号：

摘要：

根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的系统,可以抽取不限长度不限领域的新词语.

引用

收藏

页码：43 / 45

页数：3

相关论文

共 3 条

[1]

关于词汇使用度的初步研究 [J].

孙茂松 .

语言文字应用, 2000, (01) :6-10

[2]

关于大规模真实文本语料库的几点理论思考 [J].

张普 .

语言文字应用, 1999, (01)

[3]

基于机器学习的无需人工编制词典的切词系统 [J].

黄萱菁 ;

吴立德 ;

王文欣 ;

叶丹瑾 .

模式识别与人工智能, 1996, 9 (04) :297-303