学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
面向Internet的中文新词语检测
被引:167
作者
:
邹纲
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
邹纲
刘洋
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
刘洋
论文数:
引用数:
h-index:
机构:
刘群
论文数:
引用数:
h-index:
机构:
孟遥
论文数:
引用数:
h-index:
机构:
于浩
论文数:
引用数:
h-index:
机构:
西野文人
亢世勇
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
亢世勇
机构
:
[1]
中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,中科院计算技术研究所数字化实验室,富士通研究开发中心有限公司,富士通研究开发中心有限公司,富士通研究开发中心有限公司,烟台师范学院中文系北京,北京,北京,北京,北京,北京,山东烟台
来源
:
中文信息学报
|
2004年
/ 06期
关键词
:
计算机应用;
中文信息处理;
新词语;
自动检测;
D O I
:
暂无
中图分类号
:
TP393.09 [];
学科分类号
:
摘要
:
随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。
引用
收藏
页码:1 / 9
页数:9
相关论文
共 8 条
[1]
基于构词法的网络新词自动识别初探
[J].
郑家恒
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
郑家恒
;
李文花
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
李文花
.
山西大学学报(自然科学版),
2002,
(02)
:115
-119
[2]
一种新的基于统计的词典扩展方法
[J].
论文数:
引用数:
h-index:
机构:
周正宇
;
论文数:
引用数:
h-index:
机构:
李宗葛
.
中文信息学报,
2001,
(05)
:46
-51
[3]
无词典高频字串快速提取和统计算法研究
[J].
论文数:
引用数:
h-index:
机构:
韩客松
;
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海,上海交通大学电子信息学院!上海,上海交通大学电子信息学院!上海
王永成
;
陈桂林
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海,上海交通大学电子信息学院!上海,上海交通大学电子信息学院!上海
陈桂林
.
中文信息学报,
2001,
(02)
:23
-30
[4]
“水至清则无鱼”——我的新生词语规范观
[J].
论文数:
引用数:
h-index:
机构:
张德鑫
.
北京大学学报(哲学社会科学版),
2000,
(05)
:106
-119
[5]
串频统计和词形匹配相结合的汉语自动分词系统
[J].
论文数:
引用数:
h-index:
机构:
刘挺
;
论文数:
引用数:
h-index:
机构:
吴岩
;
论文数:
引用数:
h-index:
机构:
王开铸
.
中文信息学报,
1998,
(01)
[6]
基于机器学习的无需人工编制词典的切词系统
[J].
论文数:
引用数:
h-index:
机构:
黄萱菁
;
论文数:
引用数:
h-index:
机构:
吴立德
;
王文欣
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系
王文欣
;
论文数:
引用数:
h-index:
机构:
叶丹瑾
.
模式识别与人工智能,
1996,
9
(04)
:297
-303
[7]
自动新词提取方法和系统
[P].
沈丽琴
论文数:
0
引用数:
0
h-index:
0
沈丽琴
;
施勤
论文数:
0
引用数:
0
h-index:
0
施勤
;
柴海新
论文数:
0
引用数:
0
h-index:
0
柴海新
.
中国专利
:CN1340804A
,2002-03-20
[8]
语言计算与基于内容的文本处理.[M].孙茂松;陈群秀主编;.清华大学出版社.2003,
←
1
→
共 8 条
[1]
基于构词法的网络新词自动识别初探
[J].
郑家恒
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
郑家恒
;
李文花
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
李文花
.
山西大学学报(自然科学版),
2002,
(02)
:115
-119
[2]
一种新的基于统计的词典扩展方法
[J].
论文数:
引用数:
h-index:
机构:
周正宇
;
论文数:
引用数:
h-index:
机构:
李宗葛
.
中文信息学报,
2001,
(05)
:46
-51
[3]
无词典高频字串快速提取和统计算法研究
[J].
论文数:
引用数:
h-index:
机构:
韩客松
;
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海,上海交通大学电子信息学院!上海,上海交通大学电子信息学院!上海
王永成
;
陈桂林
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海,上海交通大学电子信息学院!上海,上海交通大学电子信息学院!上海
陈桂林
.
中文信息学报,
2001,
(02)
:23
-30
[4]
“水至清则无鱼”——我的新生词语规范观
[J].
论文数:
引用数:
h-index:
机构:
张德鑫
.
北京大学学报(哲学社会科学版),
2000,
(05)
:106
-119
[5]
串频统计和词形匹配相结合的汉语自动分词系统
[J].
论文数:
引用数:
h-index:
机构:
刘挺
;
论文数:
引用数:
h-index:
机构:
吴岩
;
论文数:
引用数:
h-index:
机构:
王开铸
.
中文信息学报,
1998,
(01)
[6]
基于机器学习的无需人工编制词典的切词系统
[J].
论文数:
引用数:
h-index:
机构:
黄萱菁
;
论文数:
引用数:
h-index:
机构:
吴立德
;
王文欣
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学系
王文欣
;
论文数:
引用数:
h-index:
机构:
叶丹瑾
.
模式识别与人工智能,
1996,
9
(04)
:297
-303
[7]
自动新词提取方法和系统
[P].
沈丽琴
论文数:
0
引用数:
0
h-index:
0
沈丽琴
;
施勤
论文数:
0
引用数:
0
h-index:
0
施勤
;
柴海新
论文数:
0
引用数:
0
h-index:
0
柴海新
.
中国专利
:CN1340804A
,2002-03-20
[8]
语言计算与基于内容的文本处理.[M].孙茂松;陈群秀主编;.清华大学出版社.2003,
←
1
→