学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于大规模语料的新词语识别方法
被引:14
作者
:
论文数:
引用数:
h-index:
机构:
施水才
俞鸿魁
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学中文信息处理研究中心
俞鸿魁
论文数:
引用数:
h-index:
机构:
吕学强
论文数:
引用数:
h-index:
机构:
李渝勤
机构
:
[1]
北京信息科技大学中文信息处理研究中心
来源
:
山东大学学报(理学版)
|
2006年
/ 03期
关键词
:
新词语;
流行语;
语料库;
D O I
:
暂无
中图分类号
:
TP391.43 [];
学科分类号
:
摘要
:
根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的系统,可以抽取不限长度不限领域的新词语.
引用
收藏
页码:43 / 45
页数:3
相关论文
共 3 条
[1]
关于词汇使用度的初步研究
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
孙茂松
.
语言文字应用,
2000,
(01)
:6
-10
[2]
关于大规模真实文本语料库的几点理论思考
[J].
张普
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言文化大学语言信息处理研究所
张普
.
语言文字应用,
1999,
(01)
[3]
基于机器学习的无需人工编制词典的切词系统
[J].
论文数:
引用数:
h-index:
机构:
黄萱菁
;
论文数:
引用数:
h-index:
机构:
吴立德
;
王文欣
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系
王文欣
;
论文数:
引用数:
h-index:
机构:
叶丹瑾
.
模式识别与人工智能,
1996,
9
(04)
:297
-303
←
1
→
共 3 条
[1]
关于词汇使用度的初步研究
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
孙茂松
.
语言文字应用,
2000,
(01)
:6
-10
[2]
关于大规模真实文本语料库的几点理论思考
[J].
张普
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言文化大学语言信息处理研究所
张普
.
语言文字应用,
1999,
(01)
[3]
基于机器学习的无需人工编制词典的切词系统
[J].
论文数:
引用数:
h-index:
机构:
黄萱菁
;
论文数:
引用数:
h-index:
机构:
吴立德
;
王文欣
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系
王文欣
;
论文数:
引用数:
h-index:
机构:
叶丹瑾
.
模式识别与人工智能,
1996,
9
(04)
:297
-303
←
1
→