基于语句节奏特征的作者身份识别研究

被引:8
作者
王少康 [1 ,2 ]
董科军 [1 ]
阎保平 [1 ]
机构
[1] 中国科学院计算机网络信息中心协同工作环境研究中心
[2] 中国科学院研究生院
关键词
文本挖掘; 作者身份识别; 文本相似度; 节奏特征; 多维矩阵;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出一种新的写作风格相似度评估方法,利用不同作者写作时在文章语句节奏控制方面的特点,鉴别作者的写作风格,从而达到作者身份识别的目的。该方法构建节奏特征矩阵模型来描述文本的语句节奏,利用点积相似度算法以及改进的KL距离算法来度量节奏特征矩阵之间的差异。实验表明,该方法在文学作品的作者识别方面具有较高的准确率。
引用
收藏
页码:4 / 5+8 +8
页数:3
相关论文
共 2 条
  • [1] 基于本体的论文复制检测系统
    聂规划
    付志超
    陈冬林
    刘平峰
    [J]. 计算机工程, 2009, 35 (06) : 79 - 81+84
  • [2] 基于语义分析的作者身份识别方法研究
    武晓春
    黄萱菁
    吴立德
    [J]. 中文信息学报, 2006, (06) : 61 - 68