学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
文献中的词语分布、词型等级和风格计算
被引:9
作者
:
马创新
论文数:
0
引用数:
0
h-index:
0
机构:
江苏师范大学语言科学与艺术学院
江苏师范大学语言科学与艺术学院
马创新
[
1
]
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
江苏师范大学语言科学与艺术学院
陈小荷
[
2
]
机构
:
[1]
江苏师范大学语言科学与艺术学院
[2]
南京师范大学文学院
来源
:
中文信息学报
|
2017年
/ 31卷
/ 04期
关键词
:
词语分布;
离散;
集中;
检索;
风格;
D O I
:
暂无
中图分类号
:
H14 [语法];
学科分类号
:
摘要
:
文献的语言风格是作者在语言运用方面的思维定势的体现,对于文献之间语言风格的差异,以前的研究大多采用定性分析的方式加以比较和概括,而在文献检索和文本分类领域需要得到量化的语言风格相似度。该文首先分析文献中词语分布的普遍规律,以先秦八部经典文献为观察语料,发现这些文献中的词语既呈离散分布,又呈集中分布;然后通过计算文献之间词型等级的相关系数,来获取量化的语言风格相似度,构建了八部文献之间的相似度矩阵,验证了语言风格的差异不仅体现在使用的常用词上,还更细微地体现在常用词的使用频率等级上。
引用
收藏
页码:20 / 27
页数:8
相关论文
共 16 条
[1]
计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例
陈芯莹
论文数:
0
引用数:
0
h-index:
0
机构:
中国传媒大学应用语言学系
陈芯莹
论文数:
引用数:
h-index:
机构:
李雯雯
论文数:
引用数:
h-index:
机构:
王燕
[J].
计算机工程与应用,
2012,
48
(03)
: 137
-
139+208
[2]
基于引文分析的古籍文献影响力评估
马创新
论文数:
0
引用数:
0
h-index:
0
机构:
江苏师范大学语言科学与艺术学院
江苏师范大学语言科学与艺术学院
马创新
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
江苏师范大学语言科学与艺术学院
陈小荷
[J].
大学图书馆学报,
2016,
34
(01)
: 16
-
24
[3]
跨语言信息检索进展研究
论文数:
引用数:
h-index:
机构:
刘伟成
论文数:
引用数:
h-index:
机构:
孙吉红
[J].
中国图书馆学报,
2008,
(01)
: 88
-
92
[4]
基于CRF的先秦汉语分词标注一体化研究
论文数:
引用数:
h-index:
机构:
石民
论文数:
引用数:
h-index:
机构:
李斌
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
陈小荷
[J].
中文信息学报,
2010,
24
(02)
: 39
-
45
[5]
基于语句节奏特征的作者身份识别研究
论文数:
引用数:
h-index:
机构:
王少康
论文数:
引用数:
h-index:
机构:
董科军
论文数:
引用数:
h-index:
机构:
阎保平
[J].
计算机工程,
2011,
37
(09)
: 4
-
5+8
[6]
文本挖掘在人文社会科学研究中的典型应用述评
论文数:
引用数:
h-index:
机构:
陆宇杰
论文数:
引用数:
h-index:
机构:
许鑫
论文数:
引用数:
h-index:
机构:
郭金龙
[J].
图书情报工作,
2012,
56
(08)
: 18
-
25
[7]
汉语词汇史纲要[M]. 华东师范大学出版社 , 史存直著, 1989
[8]
Human Behavior and the Principle of Least Effort. Zipf G K. . 1949
[9]
A law of occurrences for words of low frequency. W.D. Booth. Information and Control . 1967
[10]
古汉语双字词自动获取方法的比较与分析
段磊
论文数:
0
引用数:
0
h-index:
0
机构:
北京师范大学计算机科学与技术学院
段磊
韩芳
论文数:
0
引用数:
0
h-index:
0
机构:
北京师范大学计算机科学与技术学院
韩芳
宋继华
论文数:
0
引用数:
0
h-index:
0
机构:
北京师范大学计算机科学与技术学院
宋继华
[J].
中文信息学报,
2012,
(04)
: 34
-
42
←
1
2
→
共 16 条
[1]
计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例
陈芯莹
论文数:
0
引用数:
0
h-index:
0
机构:
中国传媒大学应用语言学系
陈芯莹
论文数:
引用数:
h-index:
机构:
李雯雯
论文数:
引用数:
h-index:
机构:
王燕
[J].
计算机工程与应用,
2012,
48
(03)
: 137
-
139+208
[2]
基于引文分析的古籍文献影响力评估
马创新
论文数:
0
引用数:
0
h-index:
0
机构:
江苏师范大学语言科学与艺术学院
江苏师范大学语言科学与艺术学院
马创新
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
江苏师范大学语言科学与艺术学院
陈小荷
[J].
大学图书馆学报,
2016,
34
(01)
: 16
-
24
[3]
跨语言信息检索进展研究
论文数:
引用数:
h-index:
机构:
刘伟成
论文数:
引用数:
h-index:
机构:
孙吉红
[J].
中国图书馆学报,
2008,
(01)
: 88
-
92
[4]
基于CRF的先秦汉语分词标注一体化研究
论文数:
引用数:
h-index:
机构:
石民
论文数:
引用数:
h-index:
机构:
李斌
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
陈小荷
[J].
中文信息学报,
2010,
24
(02)
: 39
-
45
[5]
基于语句节奏特征的作者身份识别研究
论文数:
引用数:
h-index:
机构:
王少康
论文数:
引用数:
h-index:
机构:
董科军
论文数:
引用数:
h-index:
机构:
阎保平
[J].
计算机工程,
2011,
37
(09)
: 4
-
5+8
[6]
文本挖掘在人文社会科学研究中的典型应用述评
论文数:
引用数:
h-index:
机构:
陆宇杰
论文数:
引用数:
h-index:
机构:
许鑫
论文数:
引用数:
h-index:
机构:
郭金龙
[J].
图书情报工作,
2012,
56
(08)
: 18
-
25
[7]
汉语词汇史纲要[M]. 华东师范大学出版社 , 史存直著, 1989
[8]
Human Behavior and the Principle of Least Effort. Zipf G K. . 1949
[9]
A law of occurrences for words of low frequency. W.D. Booth. Information and Control . 1967
[10]
古汉语双字词自动获取方法的比较与分析
段磊
论文数:
0
引用数:
0
h-index:
0
机构:
北京师范大学计算机科学与技术学院
段磊
韩芳
论文数:
0
引用数:
0
h-index:
0
机构:
北京师范大学计算机科学与技术学院
韩芳
宋继华
论文数:
0
引用数:
0
h-index:
0
机构:
北京师范大学计算机科学与技术学院
宋继华
[J].
中文信息学报,
2012,
(04)
: 34
-
42
←
1
2
→