学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
博客语料的新词发现方法
被引:35
作者
:
论文数:
引用数:
h-index:
机构:
黄轩
[
1
,
2
]
李熔烽
论文数:
0
引用数:
0
h-index:
0
机构:
漳州职业技术学院经济管理系
厦门大学智能科学与技术系
李熔烽
[
2
]
机构
:
[1]
厦门大学智能科学与技术系
[2]
漳州职业技术学院经济管理系
来源
:
现代电子技术
|
2013年
/ 36卷
/ 02期
关键词
:
新词;
词串统计;
上下文分析;
分词;
候选词;
D O I
:
10.16652/j.issn.1004-373x.2013.02.036
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。
引用
收藏
页码:144 / 146+149 +149
页数:4
相关论文
共 8 条
[1]
基于词内部模式的新词识别
[J].
论文数:
引用数:
h-index:
机构:
林自芳
;
论文数:
引用数:
h-index:
机构:
蒋秀凤
.
计算机与现代化,
2010,
(11)
:162
-164+167
[2]
中文新词识别技术综述
[J].
论文数:
引用数:
h-index:
机构:
张海军
;
论文数:
引用数:
h-index:
机构:
史树敏
;
论文数:
引用数:
h-index:
机构:
朱朝勇
;
论文数:
引用数:
h-index:
机构:
黄河燕
.
计算机科学,
2010,
37
(03)
:6
-10+16
[3]
不限领域的中文新词的识别研究
[J].
论文数:
引用数:
h-index:
机构:
韩艳
;
论文数:
引用数:
h-index:
机构:
姚建民
;
论文数:
引用数:
h-index:
机构:
朱巧明
;
论文数:
引用数:
h-index:
机构:
张晶
.
郑州大学学报(理学版),
2008,
(03)
:67
-71
[4]
一种基于大规模语料的新词识别方法
[J].
论文数:
引用数:
h-index:
机构:
贺敏
;
论文数:
引用数:
h-index:
机构:
龚才春
;
论文数:
引用数:
h-index:
机构:
张华平
;
论文数:
引用数:
h-index:
机构:
程学旗
.
计算机工程与应用 ,
2007,
(21)
:157
-159
[5]
基于大规模语料的新词语识别方法
[J].
论文数:
引用数:
h-index:
机构:
施水才
;
俞鸿魁
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学中文信息处理研究中心
俞鸿魁
;
论文数:
引用数:
h-index:
机构:
吕学强
;
论文数:
引用数:
h-index:
机构:
李渝勤
.
山东大学学报(理学版),
2006,
(03)
:43
-45
[6]
基于大规模语料库的新词检测
[J].
论文数:
引用数:
h-index:
机构:
崔世起
;
论文数:
引用数:
h-index:
机构:
刘群
;
孟遥
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
孟遥
;
于浩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
于浩
;
西野文人
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
西野文人
.
计算机研究与发展 ,
2006,
(05)
:927
-932
[7]
面向Internet的中文新词语检测
[J].
邹纲
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
邹纲
;
刘洋
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
刘洋
;
论文数:
引用数:
h-index:
机构:
刘群
;
论文数:
引用数:
h-index:
机构:
孟遥
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
西野文人
;
亢世勇
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
亢世勇
.
中文信息学报,
2004,
(06)
:1
-9
[8]
基于概率统计技术和规则方法的新词发现
[J].
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程,
2004,
(20)
:19
-21+83
←
1
→
共 8 条
[1]
基于词内部模式的新词识别
[J].
论文数:
引用数:
h-index:
机构:
林自芳
;
论文数:
引用数:
h-index:
机构:
蒋秀凤
.
计算机与现代化,
2010,
(11)
:162
-164+167
[2]
中文新词识别技术综述
[J].
论文数:
引用数:
h-index:
机构:
张海军
;
论文数:
引用数:
h-index:
机构:
史树敏
;
论文数:
引用数:
h-index:
机构:
朱朝勇
;
论文数:
引用数:
h-index:
机构:
黄河燕
.
计算机科学,
2010,
37
(03)
:6
-10+16
[3]
不限领域的中文新词的识别研究
[J].
论文数:
引用数:
h-index:
机构:
韩艳
;
论文数:
引用数:
h-index:
机构:
姚建民
;
论文数:
引用数:
h-index:
机构:
朱巧明
;
论文数:
引用数:
h-index:
机构:
张晶
.
郑州大学学报(理学版),
2008,
(03)
:67
-71
[4]
一种基于大规模语料的新词识别方法
[J].
论文数:
引用数:
h-index:
机构:
贺敏
;
论文数:
引用数:
h-index:
机构:
龚才春
;
论文数:
引用数:
h-index:
机构:
张华平
;
论文数:
引用数:
h-index:
机构:
程学旗
.
计算机工程与应用 ,
2007,
(21)
:157
-159
[5]
基于大规模语料的新词语识别方法
[J].
论文数:
引用数:
h-index:
机构:
施水才
;
俞鸿魁
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学中文信息处理研究中心
俞鸿魁
;
论文数:
引用数:
h-index:
机构:
吕学强
;
论文数:
引用数:
h-index:
机构:
李渝勤
.
山东大学学报(理学版),
2006,
(03)
:43
-45
[6]
基于大规模语料库的新词检测
[J].
论文数:
引用数:
h-index:
机构:
崔世起
;
论文数:
引用数:
h-index:
机构:
刘群
;
孟遥
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
孟遥
;
于浩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
于浩
;
西野文人
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院
中国科学院计算技术研究所数字化技术研究室
西野文人
.
计算机研究与发展 ,
2006,
(05)
:927
-932
[7]
面向Internet的中文新词语检测
[J].
邹纲
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
邹纲
;
刘洋
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
刘洋
;
论文数:
引用数:
h-index:
机构:
刘群
;
论文数:
引用数:
h-index:
机构:
孟遥
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
西野文人
;
亢世勇
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
亢世勇
.
中文信息学报,
2004,
(06)
:1
-9
[8]
基于概率统计技术和规则方法的新词发现
[J].
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程,
2004,
(20)
:19
-21+83
←
1
→