数据分析实战--保险公司客户分类分析

如题所述

第1个回答  2022-06-14
小文 | 公众号: 小文的数据之旅

五一假期过去了,不知道大家过得怎么样呢?假期的这几天,小文没有选择出去旅游(不想成为人海中的一员-。-),而是待在家里好好地阅读了我的新书--陈哲老师的《活用数据,驱动业务的数据分析实战》,可谓收获满满。当然说的不是spss的使用技巧,而是分析的思路。书里的案例用的spss,小文并不会,因此小文用python实现了一下。
这个案例来自于第六章--甲保险公司客户分类分析。文中使用了stp法进行分析,即客户细分,目标客户选取,目标客户定位。

客户细分根据客户的分类维度进行细分,分类的维度包括5类,分别是自然属性因素、社会特征因素、行为特征因素、态度偏好因素和生活状态与个性因素。
前三者是表露在外的因素,即通过接触就可知道的因素,属于事前分类维度;后两者需要通过调研才能了解,是客户内在本质的区别,属于事后分类维度。因此,往往通过事后分类维度做客户分类,以保证分类的深入性,再通过事前分类维度进行描述与验证,以保证分类客户的差异性和可接触性。

读取数据,将事后分类维度取出来并查看类型,发现9个维度都是数字类型并且部分维度之间似乎存在一定的相关性,这种相关性可能会造成重叠信息的扩大化,增加分类偏差,因此先对这9个维度进行因子分析。

因子分析是指通过少数不相关的因子反映多个具有相关性的原始信息,起到降维和剔除相关性的作用。
因子分析的前提是具有一定的相关性,因此必须通过了kmo和bartlett球形度检验的数据才能进行因子分析。

通过了适用性检验后进行因子分析,格式为:FactorAnalyzer(rotation= None,n_factors=n,method='principal')
(1)rotation:旋转的方式,包括None:不旋转,'varimax':最大方差法,'promax':最优斜交旋转;
(2)n_factors:公因子的数量;
(3)method:因子分析的方法,包括'minres':最小残差因子法,'principal':主成分分析法;

查看9个公因子的特征值以及方差贡献率,一般选择方差累计贡献率大于0.8的公因子,而文中选择了特征值大于1的公因子,即方差累计贡献率为0.697的前4个公因子。接着根据4个公因子重新拟合。

查看公因子的提取度,发现当使用4个公因子时,4个公因子对9个维度的解释率都超过0.6,说明提取的4个公因子对原始维度有一定的解释力。
接着查看4个公因子的因子载荷,看看是否需要旋转。因子载荷即公因子对原始维度的解释力。

以第一个维度为例,我们发现4个公因子对原始的第一个维度的解释程度分别为:0.418,-0.046,0.697,0.293,表明公因子1与公因子3之间存在一定的相关性,达不到因子分析的既定效果,因此需要进行旋转,使得各个公因子具有差异化的特征。

还是以第一个维度为例,我们发现经过最大方差法旋转之后,4个公因子对原始的第一个维度的解释程度分别为:-0.069,0.153,0.203,0.824,即公因子4对第一个维度的解释力较大。旋转后4个公因子在原始维度上被明显的区别出来,即4个公因子具有差异性的特征。

经过因子分析之后,我们把所有的客户分成了具有差异性特征的4类客户(代表了9个事后分类维度),接着我们通过因子类型以及保费金额两个维度进行聚类分析。常用的聚类分析方法有kmeans、DBSCAN以及层次聚类,文中使用了层次聚类,因为层次聚类对数据的类型要求不高且事先不需要知道分为几类,缺点在于计算量大。

通过层次聚类分析,我们将所有客户分为了5类,那么分类的效果如何呢?接下来我们通过方法分析检验分类的效果。我们发现无论是保费金额还是因子类型,通过层次聚类分组后,p值都小于0.05,即组间存在显著性差异,聚类效果良好。

通过单因素方差分析,我们知道细分类型各组间存在显著性差异,那么这种差异怎么表现出来呢?对于数值型数据我们用均值进行比较,对于类别型数据我们用占比比较,然后根据保费金额以及因子类别对细分类型命名。

细分客户之后,要选取目标客户。选取目标客户主要从两个维度度量,分别是客户吸引力和企业竞争力。客户吸引力包括两个方面,一是客户规模,二是保费金额,根据其公司需要,按权重6:4进行计算,得出客户吸引力。企业吸引力主要体现在各个保险公司拥有各个细分类型客户的数量,即市场占有率。

由上图可知,中端外向型客户是甲公司的首选客户,其次是中端享受型客户和高端享受型客户,而低端居家型客户和中端自信型客户在资源不足的情况下暂可放弃。

目标客户定位包括两部分,一是目标客户长什么样,也就是用户画像,通过事前分类维度描述目标客户画像;二是目标客户需求是什么,针对需求进行精准营销。分析过程依然是先进行方差分析,通过方差分析的维度用均值或者占比表现差异性,最后通过对应分析展示效果。

事前分类维度一共由6个,分别是性别、年龄、城市、家庭月收入、汽车价格、学历以及职业。通过方差分析发现,学历以及职业在细分类型组间没有显著性差异,故忽略这两个维度继续分析。

从对应分析效果图可知,甲公司首选目标客户中端外向型客户,主要是在分布在北京,武汉的分布比例也比其他细分类型要高,年龄集中在31-40之间,性别为男,家庭月收入在15000到20000元之间,汽车价格在20-30万元间。

依然是选定各细分类型客户,然后对各个维度进行方差分析,通过方差分析检验后的维度用均值或者占比进行比较;而未通过方差分析的维度,则直接用中端外向型客户进行各个维度的比较,数值型用均值,类型型用占比。

由上面的分析可知:
甲公司的目标客户中端外向型客户在选择保险公司考虑的因素中,比较关注服务网点多、亲朋推荐和信任销售人员,其中尤其关注亲朋的推荐。
在满意度分析中,发现中端外向型客户对目前购买的车险并不满意,满意度只有1.5%,不满意的具体原因还需进一步调研。
中端外向型客户车险平均保费在2780元,比其他细分客户更注重产品个性化。
最后对细分类型间没有显著性差异的维度接着进行分析,都是类别数据,直接value_counts()就可以了,这里就不一一展示了。

今天的分享到此结束,希望各位看官有所收获!!
相似回答