学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
先秦文献《孟子》自动分词方法研究
被引:31
作者
:
论文数:
引用数:
h-index:
机构:
梁社会
[
1
]
论文数:
引用数:
h-index:
机构:
陈小荷
[
2
]
机构
:
[1]
南京师范大学国际文化教育学院
[2]
南京师范大学文学院
来源
:
南京师范大学文学院学报
|
2013年
/ 03期
关键词
:
先秦文献;
《孟子》;
自动分词;
条件随机场;
注疏文献;
D O I
:
暂无
中图分类号
:
H141 [古代语法(文言语法)];
学科分类号
:
050103
[汉语言文字学]
;
摘要
:
自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达到了较高的水平。在用不同的方法对《孟子》进行自动分词时,在词语F值的统计指标外,首次尝试引入了小句F值这一统计指标。
引用
收藏
页码:175 / 182
页数:8
相关论文
共 4 条
[1]
基于CRF的先秦汉语分词标注一体化研究
[J].
论文数:
引用数:
h-index:
机构:
石民
;
论文数:
引用数:
h-index:
机构:
李斌
;
论文数:
引用数:
h-index:
机构:
陈小荷
.
中文信息学报,
2010,
(02)
:39
-45
[2]
中文信息处理60年
[J].
论文数:
引用数:
h-index:
机构:
宗成庆
;
曹右琦
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院
中国科学院
曹右琦
;
论文数:
引用数:
h-index:
机构:
俞士汶
.
语言文字应用,
2009,
(04)
:53
-61
[3]
基于中文信息处理的古代汉语分词研究
[J].
论文数:
引用数:
h-index:
机构:
邱冰
;
论文数:
引用数:
h-index:
机构:
皇甫娟
.
微计算机信息,
2008,
(24)
:100
-102
[4]
基于统计的汉语分词模型及实现方法
[J].
沈达阳
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系,,
沈达阳
;
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系,,
孙茂松
;
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系,,
黄昌宁
.
中文信息,
1998,
(Z1)
:96
-98
←
1
→
共 4 条
[1]
基于CRF的先秦汉语分词标注一体化研究
[J].
论文数:
引用数:
h-index:
机构:
石民
;
论文数:
引用数:
h-index:
机构:
李斌
;
论文数:
引用数:
h-index:
机构:
陈小荷
.
中文信息学报,
2010,
(02)
:39
-45
[2]
中文信息处理60年
[J].
论文数:
引用数:
h-index:
机构:
宗成庆
;
曹右琦
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院
中国科学院
曹右琦
;
论文数:
引用数:
h-index:
机构:
俞士汶
.
语言文字应用,
2009,
(04)
:53
-61
[3]
基于中文信息处理的古代汉语分词研究
[J].
论文数:
引用数:
h-index:
机构:
邱冰
;
论文数:
引用数:
h-index:
机构:
皇甫娟
.
微计算机信息,
2008,
(24)
:100
-102
[4]
基于统计的汉语分词模型及实现方法
[J].
沈达阳
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系,,
沈达阳
;
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系,,
孙茂松
;
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
汕头大学计算机科研所,清华大学计算机系,清华大学计算机系,,
黄昌宁
.
中文信息,
1998,
(Z1)
:96
-98
←
1
→