基于文本挖掘的潜在投诉工单预测

(整期优先)网络出版时间:2018-12-22
/ 3

基于文本挖掘的潜在投诉工单预测

徐丹凤姚林君章何何舒扬童雷凯

(国网宁波供电公司浙江省宁波市315012)

摘要:本文基于文本挖掘技术,简要介绍文本预处理、XGBOOST模型构建的方法和过程,并以客户通过供电服务中心发生投诉行为的工单为实例,建立95598工单潜在投诉风险预测的模型,实现对95598工单文本潜在投诉风险的识别,提前预知工单用户是否会发生投诉行为,为后续的针对性营销服务活动提供理论和数据的支撑。

关键词:文本挖掘;XGboost工单文本;潜在投诉风险;文本预处理

PredictionofpotentialcomplaintsbasedonTextMining

ABSTRACT:Basedontextminingtechnology,thispaperbrieflyintroducesthemethodsandprocessoftextpreprocessingandXGBOOSTmodelconstruction,andtakestheworkorderofpowersupplyservicecenterasanexample,establishesthemodelof95598workorderpotentialcomplaintriskprediction,realizestheidentificationof95598workordertextpotentialcomplaintrisk.Pre-forecastwhetherthesingleuserwillcomplain,andprovidetheoreticalanddatasupportforthefollow-uptargetedmarketingserviceactivities.

Keywords:textmining,XGboostworksheet,potentialcomplaint,risktextpreprocessing

1.项目简介

1.1项目背景

当前电力服务渠道主要是实体营业厅、95598供电服务热线和其它线上渠道为主,其中客户通过95598服务热线反映各类意见、服务申请、咨询等占比最大。据统计,2017年1-12月份,鄞州区工单约5.32万件,对这部分数据价值挖掘不充分,工单的分析多数仍停留在事后和人工层面,数据分析维度和方法相对单一,关联分析不足,下派工单的文本信息和客户真实需求存在信息不对称,导致实际业务问题没有得到真正解决,潜在客户需求无法一次性解决。在以客户为中心的现代营销服务体系下,为更好得推进全能型供电所的落地实施,提高台区经理末端服务能力和客户服务体验感知,实现事前精准预测,事中辅助决策,事后主题分析和可视化展示,有效提升电力营销服务精细化管理水平和精准营销能力。

客户需求得不到有效满足,最直观的结果就是客户的投诉行为。目前在95598工单数据内,业务人员通过人为判断通话内容是否为用户投诉,在工单类型中给与标记。对于该形式所记录的用户投诉行为相对准确且投诉捕获率也相对较高,但均为已发生的用户投诉行为。而对于潜在投诉倾向,虽在工单内容中存在少量文本标注数据,但潜在投诉倾向真实捕获率未知,且人为判断的形式存在一定的主观性,会存在漏判、误判的情况。

1.2建设思路

本方案的设计思路是希望建立起95598工单文本信息与投诉倾向之间的联系,收集对投诉倾向存在强关联性的敏感词,建立敏感词词库。工单文本中包含敏感词的数量越多,程度越深,该工单的投诉倾向就越强。

本方案是一种基于文本挖掘的95598工单潜在投诉倾向预测的方法,通过对历史95598工单的文本数据进行分析挖掘,在理解专业业务知识的基础上,整理专业词、敏感词词库,对工单文本进行分词处理,然后将分词文本转化为词向量。最终,以标注为投诉工单的数据作为正样本,建立机器学习模型,预测未标注为投诉工单的样本集中存在潜在投诉倾向的工单数量及程度。

1.3预期目标

(1)通过样本数据集,对比机器学习模型对于投诉工单的捕获率,验证模型的有效性。

(2)确定潜在投诉风险在模型

(3)通过模型捕获95598工单中更多未人工标注的潜在投诉倾向记录。

2.模型及相关理论

2.1文本预处理

文本预料通常是非结构化的,为了便于计算机处理需对文本数据进行预处理。文本预处理是为把非结构化的文本数据形式表示成结构化的数据形式而做的准备工作。通过预处理也可以保证数据的质量,可以得到更好地信息提取结果。文本预处理主要包括以下内容:

(1)去除非文本的部分:在工单文本当中有部分标点符号和数字等,这些非文字的字符对后续文本挖掘意义不大,因此需要剔除这些非文本的部分;

(2)更新分词工具的专业词词库,电力行业存在较多的专有名词,如“烧表”,正常分词的结果可能为“烧”、“表”。需要为分词工具传递一组大致囊括了常用电力专业词的词库,以提高其分词结果的准确性;

(3)收集敏感词词库,敏感词是本方案判断投诉倾向的关键因素,通过对历史工单预料的收集,并参考每个疑似敏感词出现的频率及业务理解上该词对客户投诉情绪的相关程度,整理出一份敏感词词库。

(4)通过文本表示可将无结构化的原始自然语言转化为有结构化的计算机能够识别和处理的信息。本文使用空间向量模型表示。将每条工单文本理解为由n个词构成的预料集合,即:

其中表示某条工单文本;表示第i个文本中的第j个词;表示在文本中的权重。

权重的计算方法中使用最广泛的是TF⁃IDF法,即:

式中:为关键词j在文本的权重;为关键词j在文本中出现的次数;为总文本数;为出现关键词j的总文本数

2.2关于模型的建立

Xgboost算法原理于2004年由陈天奇提出,是在GBDT的基础上对boosting算法的改进,解决GBDT算法模型难以并行计算问题,实现对模型过拟合问题的有效控制。

GBDT是一种迭代的决策树算法,为便于求解目标函数,GBDT常用回归树生长过程错误分类产生的残差平方作为损失函数,即通过拟合残差平方构造损失函数。随着树的生成,损失函数不断下降;回归树生长过程每个分裂节点划分时枚举所有特征值,选择使得错误分类最少、损失函数下降最快的特征值作为划分点;每一棵回归树学习的是之前所有树的结论和残差,拟合得到一个当前的残差回归树;最后,累加所有树的结果作为最终结果。GBDT回归树生长过程如图1(左)所示:

图1GBDT(左)、XGboost(右)回归树生长过程

GBDT回归树求取目标函数最优解只对平方损失函数方便求得,对于其他的损失函数变得很复杂。以最小平方损失确定分裂结点的选取,仅考虑了回归树各叶节点预测精度,在追求高精度的同时易造成模型复杂度提升,造成回归树的生长出现过拟合。

Xgboost算法模型对GBDT上述两个不足进行改进。Xgboost增加了对树模型复杂度的衡量,在回归树生成过程分裂节点的选取考虑了损失和模型复杂度两个因素,在权衡模型低损失高复杂和模型低复杂高损失后,求取最优解,防止一味追求降低损失函数产生过拟合现象,且速度快,准确性高[3],是有效的集成学习算法。XGboost回归树生长过程如图1(右)所示。

通过对目标函数推倒,最终的目标函数可简化为:

其中T为回归树叶子数;为所有数据在损失函数上的一阶导数;所有数据在损失函数上的二阶导数。即,目标函数只依赖于每个数据点的在误差函数上的一阶导数和二阶导数,通过二阶泰勒展开[2]式的变换,这样求解其他损失函数变得可行。

XGboost目标函数根据研究的对象不同可进行自行定义,具体可分为:针对连续型研究变量,目标函数为:线性回归(“reg:linear”);针对分类型研究变量,目标函数可为:逻辑回归(“reg:logistic”);针对计数型研究变量,目标函数为:泊松回归(“count:poisson”)。

2.3效果评估指标

效果评估是一个重要步骤,评估指标的有效性将直接影响实验测试结果的可信度。

文本分类中常使用的评估指标有召回率(recall)R、精确率P(precision)。在本文研究中结合电力行业95598工单研究的特殊性,另定义准确率(accuracy)A和遗漏率(leaking)L判定分类效果的优劣,见表2

表1评价指标说明

3.95598工单文本挖掘实证分析

3.1分词统计

本研究以浙江省宁波市2017年1月—2017年12月所有工单为数据基础,从工单受理内容出发进行挖掘分析,工单记录数共计88623条,其中投诉工单1121条,占比1.3%。

表2分词结果统计

3.2模型构建

本文主要以投诉类工单为例进行分析,从受理内容上人工判定是否属于投诉类工单,选出具有代表性的投诉类工单和一定比例非投诉类工单作为训练集。

通过python调用XGboost算法,模型在训练和测试集结果如表4所示。

表3模型效果评估

从表4的验证结果来看,模型召回率达到93.3%,遗漏率6.7%,基本能识别出投诉工单,且遗漏投诉工单较少。但从模型精确率和准确率来看,80.3%和82.5%,意味着该模型尽管能识别出投诉工单,但牺牲了一定的准确性,模型在无法判断时大概率会判定为投诉工单,因此后续模型在精确度上的调整和改进仍有较大的空间。

另一方面,将投诉工单的预测与相关的营销业务活动匹配关联的实际应用中,召回率的控制要求可能要高于精确度和准确度。所有可能成为投诉用户的对象,均可针对性从营销服务环节出发提供提前预警和事后回访等形式,提升用户满意度。

4.小结

本文研究在当前电力呼叫中心投诉工单判定不全面的背景下,利用文本挖掘的技术,以供电服务过程中客户产生投诉行为为例对呼叫中心95598工单进行挖掘分析,通过研究验证认为:利用文本挖掘后以机器学习预测的方式能快速、高效地实现对工单潜在投诉风险的预测,从而减少人为参与辨别时的主观影响。

参考文献:

[1]赵建勋微博恶意用户识别.北京交通大学2016年4月

[2]道如那基于文本与用户行为挖掘的虚假评论识别研究.内蒙古大学2018年4月25日

[3]安瑞虹,张猛,韦广林,王题基于大数据分析的电力抄表用户识别及应用[A].中国联通网络技术研究院北京2018年2月

[4]邹云峰,何维民,赵洪莹,程雅梦,杨红.文本挖掘技术在电力工单数据分析中的应用[J].现代电子技术.2016年第17期149-152页

[5]刘娟.浅谈电力营销服务系统理念[J].科技信息.2010(33)

[6]陶利.电力客户服务质量差距模型的运用[J].大众用电.2008(08)

[7]陈亮,王刚,王震.并行LDA主题模型在电力客服工单文本挖掘中的应用[J].科技创新导报2017年12期