学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于信息熵和词频分布变化的术语抽取研究
被引:20
作者
:
李丽双
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机学院
李丽双
论文数:
引用数:
h-index:
机构:
王意文
黄德根
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机学院
黄德根
机构
:
[1]
大连理工大学计算机学院
来源
:
中文信息学报
|
2015年
/ 01期
关键词
:
术语抽取;
信息熵;
词频分布变化;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
在分别研究了基于信息熵和基于词频分布变化的术语抽取方法的情况下,该文提出了一种信息熵和词频分布变化相结合的术语抽取方法。信息熵体现了术语的完整性,词频分布变化体现了术语的领域相关性。通过应用信息熵,即将信息熵结合到词频分布变化公式中进行术语抽取,且应用简单语言学规则过滤普通字符串。实验表明,在汽车领域的语料上,应用该方法抽取出1 300个术语,其正确率达到73.7%。结果表明该方法对低频术语有更好的抽取效果,同时抽取出的术语结构更完整。
引用
收藏
页码:82 / 87
页数:6
相关论文
共 12 条
[1]
一种基于加权投票的术语自动识别方法
论文数:
引用数:
h-index:
机构:
游宏梁
论文数:
引用数:
h-index:
机构:
张巍
论文数:
引用数:
h-index:
机构:
沈钧毅
刘挺
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机学院
西安交通大学电子与信息工程学院
刘挺
[J].
中文信息学报,
2011,
25
(03)
: 9
-
16
[2]
采用改进重采样和BRF方法的定义抽取研究
论文数:
引用数:
h-index:
机构:
潘湑
论文数:
引用数:
h-index:
机构:
顾宏斌
[J].
中文信息学报,
2011,
25
(03)
: 30
-
37
[3]
基于混合策略的高精度长术语自动抽取
梁颖红
论文数:
0
引用数:
0
h-index:
0
机构:
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
东北林业大学信息与计算机工程学院
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
梁颖红
张文静
论文数:
0
引用数:
0
h-index:
0
机构:
东北林业大学信息与计算机工程学院
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
张文静
论文数:
引用数:
h-index:
机构:
周德富
[J].
中文信息学报,
2009,
23
(06)
: 26
-
30
[4]
基于词频分布变化统计的术语抽取方法
论文数:
引用数:
h-index:
机构:
周浪
论文数:
引用数:
h-index:
机构:
张亮
论文数:
引用数:
h-index:
机构:
冯冲
论文数:
引用数:
h-index:
机构:
黄河燕
[J].
计算机科学,
2009,
36
(05)
: 177
-
180
[5]
领域术语自动抽取及其在文本分类中的应用
刘桃
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
刘桃
刘秉权
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
刘秉权
徐志明
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
徐志明
论文数:
引用数:
h-index:
机构:
王晓龙
[J].
电子学报,
2007,
(02)
: 328
-
332
[6]
基于质子串分解的中文术语自动抽取
论文数:
引用数:
h-index:
机构:
何婷婷
论文数:
引用数:
h-index:
机构:
张勇
[J].
计算机工程,
2006,
(23)
: 188
-
190
[7]
一种基于信息熵的中文高频词抽取算法
论文数:
引用数:
h-index:
机构:
任禾
论文数:
引用数:
h-index:
机构:
曾隽芳
[J].
中文信息学报,
2006,
(05)
: 40
-
43+90
[8]
基于互信息的中文术语抽取系统
张锋
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
张锋
许云
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
许云
论文数:
引用数:
h-index:
机构:
侯艳
樊孝忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
樊孝忠
[J].
计算机应用研究,
2005,
(05)
: 72
-
73+77
[9]
论术语学概念理论的发展
梁爱林
论文数:
0
引用数:
0
h-index:
0
机构:
惠州学院
梁爱林
[J].
术语标准化与信息技术,
2003,
(04)
: 4
-
10+15
[10]
特定领域中文术语抽取[D]. 李丹.大连理工大学. 2011
←
1
2
→
共 12 条
[1]
一种基于加权投票的术语自动识别方法
论文数:
引用数:
h-index:
机构:
游宏梁
论文数:
引用数:
h-index:
机构:
张巍
论文数:
引用数:
h-index:
机构:
沈钧毅
刘挺
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机学院
西安交通大学电子与信息工程学院
刘挺
[J].
中文信息学报,
2011,
25
(03)
: 9
-
16
[2]
采用改进重采样和BRF方法的定义抽取研究
论文数:
引用数:
h-index:
机构:
潘湑
论文数:
引用数:
h-index:
机构:
顾宏斌
[J].
中文信息学报,
2011,
25
(03)
: 30
-
37
[3]
基于混合策略的高精度长术语自动抽取
梁颖红
论文数:
0
引用数:
0
h-index:
0
机构:
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
东北林业大学信息与计算机工程学院
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
梁颖红
张文静
论文数:
0
引用数:
0
h-index:
0
机构:
东北林业大学信息与计算机工程学院
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
张文静
论文数:
引用数:
h-index:
机构:
周德富
[J].
中文信息学报,
2009,
23
(06)
: 26
-
30
[4]
基于词频分布变化统计的术语抽取方法
论文数:
引用数:
h-index:
机构:
周浪
论文数:
引用数:
h-index:
机构:
张亮
论文数:
引用数:
h-index:
机构:
冯冲
论文数:
引用数:
h-index:
机构:
黄河燕
[J].
计算机科学,
2009,
36
(05)
: 177
-
180
[5]
领域术语自动抽取及其在文本分类中的应用
刘桃
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
刘桃
刘秉权
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
刘秉权
徐志明
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
徐志明
论文数:
引用数:
h-index:
机构:
王晓龙
[J].
电子学报,
2007,
(02)
: 328
-
332
[6]
基于质子串分解的中文术语自动抽取
论文数:
引用数:
h-index:
机构:
何婷婷
论文数:
引用数:
h-index:
机构:
张勇
[J].
计算机工程,
2006,
(23)
: 188
-
190
[7]
一种基于信息熵的中文高频词抽取算法
论文数:
引用数:
h-index:
机构:
任禾
论文数:
引用数:
h-index:
机构:
曾隽芳
[J].
中文信息学报,
2006,
(05)
: 40
-
43+90
[8]
基于互信息的中文术语抽取系统
张锋
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
张锋
许云
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
许云
论文数:
引用数:
h-index:
机构:
侯艳
樊孝忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
樊孝忠
[J].
计算机应用研究,
2005,
(05)
: 72
-
73+77
[9]
论术语学概念理论的发展
梁爱林
论文数:
0
引用数:
0
h-index:
0
机构:
惠州学院
梁爱林
[J].
术语标准化与信息技术,
2003,
(04)
: 4
-
10+15
[10]
特定领域中文术语抽取[D]. 李丹.大连理工大学. 2011
←
1
2
→