基于文本内容的敏感数据识别方法研究与实现

被引:17
作者
李伟伟
张涛
林为民
邓松
时坚
汪晨
机构
[1] 中国电力科学研究院南京分院
关键词
敏感数据; 文本识别; 内容识别; 数据防泄漏; 分类算法;
D O I
10.16208/j.issn1000-7024.2013.04.040
中图分类号
TP309 [安全保密];
学科分类号
081201 ; 0839 ; 1402 ;
摘要
为了防止敏感数据的泄露,为数据的访问控制提供依据,提出并实现了一种基于中文文本内容的敏感数据识别方法。通过对敏感数据库和已知分类文档库的学习,完成对文本中敏感数据识别的阙值的确定和未知文档是否敏感数据的判断过程。描述了预处理、文本识别、阙值确定的详细设计和实现过程。通过对搜狗语料库中教育相关部分文本的识别,验证该方法的敏感数据识别过程简单实用并且具有较高的正确率。
引用
收藏
页码:1202 / 1206
页数:5
相关论文
共 10 条