电力中文文本数据挖掘技术及其在可靠性中的应用研究

被引:0
作者
邱剑
机构
[1] 浙江大学
关键词
文本挖掘; 数据挖掘; 可靠性; 故障率; 健康指数; 全寿命数据; 机器学习; 自然语言处理; 本体论; 资产管理;
D O I
暂无
年度学位
2016
学位类型
博士
摘要
随着电网智能化与信息化的建设,电网企业积累了大量的数据,逐渐构成了学术界和工业界共同关注的电力大数据。本文将电力系统全生产过程、电力设备全寿命过程中产生的数据,统称为全寿命数据,其类型涵盖了结构化和非结构化数据。目前在电力领域中,主要侧重于结构化数据挖掘的研究,也有针对图像识别的研究,但是,电力文本挖掘研究才刚刚起步。本文以获取可靠性的相关指标(统计指标、健康指数、广义故障率和可靠性)为目的,以电力设备资产管理为着眼点,重点对电力文本挖掘及多源数据的融合技术进行了深入研究,取得了如下成果。1.针对可靠性和资产管理的特点,给出了电网自然语言处理(Natural language processing for power grids,NLP4PG)的基础定义。编撰了专业词典、变压器本体词典和领域语料库,并将部分内容开源共享。融合了本体论与电力领域知识,建立了适用于NLP4PG的总框架。指出了NLP4PG的工作原理和潜在应用,并分析了若干语言特性和语言模型,填补了电力中文文本挖掘研究的空白。2.基于语义框架思想,将离线统计学习与在线语义规则的方法相结合,提出了适用于故障与缺陷分类统计的文本挖掘模型。解决了缺陷文本句子成分难以划分、数字量无法精确提取等问题,并实现了本体字典的半自动化构建技术。3.针对设备健康指数(Health Index)多源、多类型的特点,改进了kNN算法,提出了具备自主区间寻优能力的电力缺陷短文本分类模型。该模型实现了从故障缺陷文本到HI的自学习映射,能够在最大程度上挖掘同类设备的相似信息、融合同台设备的历史信息,使得HI更加合理、精准。在一定程度上,改变了运维人员主观评价故障/缺陷等级的方式,并符合电网企业精细化管理的发展要求。4.为了能够充分利用从全寿命数据中挖掘到的亚健康状态信息,同时处理多类型复发事件,提出了基于鞅过程和非参数理论的设备故障率预测模型。该理念完全区别于以往单一变量的故障率模型(基于时间或状态量的定参数分布函数),通过算例结果、鞅残差检验、灵敏度分析表明,该模型能够定量地、精确地描绘短期故障率,为剩余寿命预测、状态检修优化提供基础可靠性指标。5.针对智能变电站自动化系统(Smart Substation Automation System,SSAS)这类新型的、缺乏运维数据的场景,提出了基于网络层次分析法的广义可靠性评估模型。参考IEC 61850标准、设计文档和相关文献,构建了SSAS本体平台,包括物理本体、逻辑本体和信息流本体。对应地,将系统可靠性作为总指标,涵盖了物理可靠性、逻辑可靠性、信息流可靠性和系统经济性。四大指标下面包含了若干定量与定性的指标。通过算例结果与灵敏度分析表明,在缺乏运维数据的情况下,本模型能够用于新型系统的可靠性评估,为设计方案的遴选提供一种新思路。
引用
收藏
页数:143
共 94 条
[1]
聚类融合与深度学习在用电负荷模式识别的应用研究 [D]. 
林锦波 .
华南理工大学,
2014
[2]
基于健康状态的电力变压器可靠性和经济性寿命评估研究 [D]. 
孟繁津 .
重庆大学,
2014
[3]
基于信息抽取的语义框架填充技术研究 [D]. 
白晓雷 .
河南科技大学,
2014
[4]
输变电设备状态评价及可靠性研究 [D]. 
杨荷娟 .
浙江大学,
2012
[5]
基于设备诊断报告的诊断专家决策支持方法 [D]. 
孙晓磊 .
西安电子科技大学,
2011
[6]
500kV智能变电站的设计方案研究 [D]. 
王翀 .
华北电力大学,
2011
[7]
大型电力变压器基于信息融合故障诊断技术的研究 [D]. 
钱国超 .
重庆大学,
2008
[8]
电力系统中基于学习理论的特征选择方法研究 [D]. 
许征 .
清华大学,
2004
[9]
Computational Linguistics and Deep Learning [J].
Manning, Christopher D. .
COMPUTATIONAL LINGUISTICS, 2015, 41 (04) :701-707
[10]
Big data driven smart energy management: From big data to big insights.[J].Kaile Zhou;Chao Fu;Shanlin Yang.Renewable and Sustainable Energy Reviews.2016,