基于逻辑回归算法的客户电费敏感度研究赵雅迪

基于逻辑回归算法的客户电费敏感度研究赵雅迪

(北京国网信通埃森哲信息技术有限公司北京100032)

摘要:以客户电费敏感为切入点,提出了一种基于logistic回归的客户电费敏感度评价算法,针对高压客户、低压非居客户和居民客户分别构建电费敏感模型。从客户基本信息、用电信息等多个维度收集建模指标,利用信息值(InformationValue,IV)、相关系数筛选变量,并根据最优分组和最优分群算法对变量进行分组,根据模型参数估计值构建易于理解实施的标准评分卡,计算客户敏感度得分。通过识别电费高敏感客户群体,为供电企业相关部门开展精准营销、降低电费回收风险和差异化服务提供数据支撑,从而提高客户整体满意度、提升客户感知。

关键词:电费敏感;逻辑回归算法;评分卡函数

引言

随着电力体制改革的不断深化,电网企业的公用性、基础性和服务性等社会特性愈加明显,一方面承担着服务地方经济发展、提高人民生活品质的重要政治和社会责任;另一方面,消费者心理需求从低级的生理、安全需求逐渐提升至寻求情感归属和尊重的需求。因此,供电企业需要优化服务重点任务,拓展服务深度广度,增强面向客户的服务能力建设,实现企业与客户之间的高效沟通。

为了改善服务质量,提高运维效率,企业开始从数据中寻找客户因停电、电费而发生投诉、咨询等行为的影响因素,提前做好预防措施和服务准备工作,提高工作质量和服务水平。随着信息技术的发展,国内开始使用数据挖掘技术分析海量数据并试图寻找引起敏感行为发生的原因[1-2]。严宇平等运用逻辑回归、决策树等数据挖掘技术,建立了客户停电敏感度预测模型,试验证明运用逻辑回归算法的效果比决策树算法好,同时分析了客户特征,为供电企业加强客户停电差异化管理提供了支持[3]。赵会茹等在对云南省150户农民调研的基础上,采用因子分析法和Logistic回归模型,分析了影响电力普遍服务受助个体诉求的主客观因素,并重点分析了主观影响因素的作用机理[4]。

本文以客户停电敏感影响因素分析中的逻辑回归方法为基础,总结归纳出影响客户电费敏感度的重要指标,结合数据最优分群法和模型评分卡算法构建电费敏感度预测模型,这将为电力企业同时准确辨识停电和电费敏感度高的客户、提供差异化服务、提升客户满意度提供数据依据。

1建设思路

电费敏感客户定义为当收到电费通知单时,对电费金额表示疑问,进而产生咨询、投诉等行为的客户,主要体现在向电网公司服务热线95598、营业厅、微信客服等渠道发生的业务申请、咨询、投诉、表扬等行为。

以95598服务工单、营业厅服务工单为出发点,针对高压客户、低压非居客户和居民客户分别构建电费敏感模型。建设思路如图1,模型主要包括三大部分:数据提取—数据处理—模型构建。在数据提取过程中包括:业务理解—数据获取—数据检验;数据处理包括:数据探索—指标筛选—变量分组与转换;模型构建包括:模型构建—变量重要性—标准评分卡。根据模型结果,识别高敏感客户,为电力营销和客户服务部门开展精准营销和差异化服务提供数据支撑,从而提高客户整体满意度、提升客户感知。

图1敏感度预测模型建设思路

2模型选择

2.1逻辑回归模型

2.2最优变量分组算法

变量分组是将分类变量的某些类别合并降低其基数,或将数值型变量分段转换为分类变量的方法。常用方法是基于聚类或决策树模型的最优分群算法,通过合并变量的类别使得预测力指标[5]最大化。即首先以使某预测力指标最大的原则找出最优的二元分割点,然后在每个子类别中重复上一步骤,当达到最大分组个数时停止继续分割。

2.3WOE(WeightofEvidence)证据权重转化方法

将分类变量转化为数值型变量,以降低建模程序的复杂性。对于某分类自变量的第i组,给出WOE的计算公式:

3模型构建

3.1数据获取

选取某省电力公司客户基础数据,主要包括:

基本属性:用户编号、立户日期、城乡类别等;

用电数据:用户分类、行业分类、供电电压、合同容量、计量方式、负荷程度等;

消费行为:用电量,电费,电费阶梯、电费通知方式等;

缴费行为:缴费方式、缴费渠道、缴费频次等;

95598信息:投诉、咨询、意见、建议、举报、表扬记录等;

目标变量为是否拨打过95598客服热线。通过数据清洗、相关性选择结合IV值预测力筛选后探索建立数据指标体系。

3.2探索性分析

如图2、3,条形图表示不同行业客户数,折线图表示不同行业下敏感客户占比。通过探索性分析,可以看出高电压行业类型中房产、租赁和商业服务行业对电费敏感的客户占比较高,达到12.76%,其次为居民服务、科学研究等行业;而在非居民行业类型中金融业、房产租赁、科学研究行业对电费敏感的客户占比较高,达到2.54%。可见客户类别不同,对电费敏感的行业也不相同,因此对于不同客户不同行业应采取针对性措施。同样通过描述性统计分析,可以得到不同地区、不同用电类型的客户敏感度占比也是有差异的,如图4为高电压用电类型分层敏感度分布图,其中一般工商业(商业用电)、城镇居民生活用电、中小学教学用电类型敏感用户占比最高,达到7.13%,农业生产用电类型敏感客户占比最低,为0.95%。

3.3模型构建

通过数据探索性分析、主成分分析及数据分组转化确立入模的六个重要指标维度,并将每个维度数据进行预处理转化,为入模做准备。以某省级供电局的全体815.8万客户(其中居民客户764.1万,低压非居客户45.4万,高压客户6.3万)为研究对象,以高压客户为例,基于SAS软件[6]运用逐步回归法实现电费敏感客户逻辑回归模型,其他类型客户同理可得。结果如表1,得到模型中变量参数估计值、标准化估计及偏相关系数,且每个变量的P值均小于0.05,说明变量与目标变量显著相关。

表1最大似然估计分析

依据上表给出的评分值,在获取某一个客户基础资料后,可以轻易计算出该客户的敏感度评分。

4模型评估与验证

常用的评价方法有洛伦兹曲线、ROC曲线、AUC统计量、分离度等。假设模型预测结果与实际情况形成的交叉矩阵如下:

表5预测情况交叉矩阵

图5Logistic回归的ROC曲线

定义灵敏度(sensitivity)为预测出来的目标客户数与全部目标客户数的比值,即;特异度(specificity)为预测出来的非目标客户占全部非目标客户的比值,即。受试者工作特征曲线(receiveroperatingcharacteristiccurve,ROC)是通过改变创建混合矩阵的临界值,绘制sensitivity与1-specificity得到的曲线,ROC曲线之下的面积称为AUC(areaundercurve)统计量,或c-统计量。如图5得到逻辑回归的ROC曲线,模型的c-统计量为0.869,大于对模型准确度的一般要求0.75,说明回归模型准确率较高。同时可以采用时间平移的方式进行模型验证,例如预测目标变量未来一个月敏感客户的发生情况,并与实际情况比对,通过定义模型命中率、覆盖率和提升度等指标判断模型构建效果。

5结语

利用大数据进行数据挖掘和建模分析可以对未来业务进行及时规划和预测,便于有效管控风险和采取针对性的应对措施。本文结合最优分群算法和评分卡函数方法,将逻辑回归模型的运用加以完善,具有较强的理解性和适用性。可根据结果对于高敏感客户,通过抄表环节、核电环节、收费环节等不同环节采取相应措施,如:及时提醒抄表员进一步核实电量,对于高电费敏感客户进一步向客户告知,与客户共同排查电量突增原因,达成共识;或在核实电费环节,针对电费激增的高电费敏感的客户,建立预警机制等。

参考文献:

[1]程陈,王丹宁,史文博.基于大数据挖掘分析的智能监控系统[J].电子技术与软件工程,2014(14):198-198.

[2]杨华飞,李栋华,程明.电力大数据关键技术及建设思路的分析和研究[J].电力信息与通信技术,2015,13(1):7-10.

[3]严宇平,吴广财.基于数据挖掘技术的客户停电敏感度研究与应用[J].新技术新工艺,2015(9):89-93.

[4]赵会茹,霍慧娟,李春杰.基于因子分析和Logistic回归模型的电力普遍服务受助个体主客观诉求影响因素分析[J].陕西电力,2014,42(8):65-71.

[5]Martin,Rezac.MeasuringQualityofScoringModelsUsingInformationValue[J].通讯和计算机:中英文版,2011(3):234-239.

[6]刘荣、冯国生、丁维岱.SAS统计分析与应用[M].机械工业出版社,2011.

标签:;  ;  ;  

基于逻辑回归算法的客户电费敏感度研究赵雅迪
下载Doc文档

猜你喜欢