方案网

Hi, 请登录

拾味馆加盟盈利 rmf模型(RMF模型及简单实现)

rmf模型(RMF模型及简单实现)

拾味馆加盟盈利 rmf模型(RMF模型及简单实现)

6个月前 (0411)34

前言

RFM模型即:R——Recency(最近一次消费时间)F——Frequency(一段时间内消费频次)M——(一段时间内消费总额)。这三个指标可以将我们的用户划分成不同的等级和层次,目的是为了衡量他们的用户价值,从而能够更准确地将成本和精力花在更精确的用户层次身上。一个典型的例子就是针对一个明显无意愿的流失用户,对其继续push自己的核心产品,费时费力也费钱。

建立RFM模型

RFM模型,虽然字眼中带着“模型”二字,但实际它根本不需要任何的算法支撑,和数据建模中的逻辑回归,聚类分析等是完全不同的概念。因而实现RFM的工具和方法有很多:SQL, Excel, R等等都能够做到,当然Python也不例外,RFM模型的核心就是将三个指标进行标签化,然后根据实际场景业务需求进行分层即可。下面的文章我就通过一个简单的例子来通过代码实现RFM模型的建立。

数据导入

链接:

提取码:nf2f数据是某电商的一款SKU于2018年的销售表单,字段本身只有4个,但是足够建立RFM模型了。

import osimport numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlineplt.rcParams['font.serif'] = ['SimHei']plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus']=Falsesns.set_style('ticks', {'font.sans-serif':['simhei','Droid Sans Fallback']})

数据清洗

可以看到我们各个字段的数据类型,注意到其中的ORDERDATE是字符串类型,而不是时间Datetime类型,这个需要在后面进行转换。其它字段都正常。

df = pd.read_csv('sale.csv')df.drop_duplicates(subset=['ORDERID'],keep='first',inplace=True)df.dtypes

可以看到上面有些数据出现了空值,由于空值无法计算出RFM,所以直接删除。

plt.figure(figsize=(10,5))sns.distplot(df.AMOUNTINFO)

通过直方图我们可以很清晰地看到数据的整体分布情况,呈现偏态分布,不过没有负值,因此不需要处理异常值,>0的值都是合理的。

df['ORDERDATE'] = pd.to_datetime(df['ORDERDATE'])df['Datediff'] = (pd.to_datetime('today') - df['ORDERDATE']).dt.daysdf

数据的最后处理,就是将ORDERDATE转换成Datetime时间类型,并添加一列时间差,作为”R”的计算指标。

数据分析

R_Agg = df.groupby(by=['USERID'])['Datediff']R_Agg = R_Agg.agg([('最近一次消费','min')])F_Agg = df.groupby(by=['USERID'])['ORDERID']F_Agg = F_Agg.agg([('2018年消费频次','count')])M_Agg = df.groupby(by=['USERID'])['AMOUNTINFO']M_Agg = M_Agg.agg([('2018年消费金额',sum)])rfm = R_Agg.join(F_Agg).join(M_Agg)rfm

上面的步骤是分别计算了RFM模型中的三个指标: R,F,M,将其合并成一张新表,如下图:然后就是最关键的一步了,通过pd.cut方法,将用户分层并打上标签,这里我用的分层方法是python中的quantile函数,因为我们之前的直方图看到是偏态分布,所以取均值来分层的误差会很大,这时候选择分位数来分层会更好。

def rfm_convert(x):    rfm_dict = {0:'R',                2:'M'}    try:        for i in range(0,3,2):            bins = x.iloc[:,i].quantile(q=np.linspace(0,1,num=6),interpolation='nearest')            if i == 0:                labels = np.arange(5,0,-1)            else:                labels = np.arange(1,6)            x[rfm_dict[i]] = pd.cut(x.iloc[:,i],bins=bins,labels=labels,include_lowest=True)    except Exception as e:        print(e)rfm_convert(rfm)

上面这个函数的目的是将R和M按照15的等级打上标签,给用户分层,但由于F的数值大多集中在1,即消费频次只有1次,所以无法使用分位数方法来均分出5个等级,因此我下面额外再使用其它方式将其打上标签:

bins = [1,3,5,12]labels = np.arange(1,4)rfm['F'] = pd.cut(rfm['2018年消费频次'], bins=bins, labels=labels, include_lowest=True)rfm.insert(4,'F',rfm.pop('F'))rfm

F的分层是由我手动区分的,由于RFM模型本身就是根据不同场景和业务需求来建立的,因此这里的F我就根据数据的实际分布情况来手动分层了。好,那么至此RFM模型已经有了个雏形,最后要做的,就是打上标签:

rfm_model = rfm.filter(items=['R','F','M'])def rfm(x):    return x.iloc[0]*3+x.iloc[1]+x.iloc[2]*3rfm_model['RFM'] = rfm_model.apply(rfm,axis=1)bins = rfm_model.RFM.quantile(q=np.linspace(0,1,num=9),interpolation='nearest')labels = ['流失客户','一般维持客户','新客户','潜力客户','重要挽留客户','重要深耕客户','重要唤回客户','重要价值客户']rfm_model['Label of Customer'] = pd.cut(rfm_model.RFM, bins=bins, labels=labels, include_lowest=True)rfm_model

这里的RFM分数根据具体场景和业务来分配权重,这里我给的权重比是3:1:3,,那么其实也可以不要这个加权分数,完全根据单独的R,F,M来标签,比如R>=4、F>1、M>=4的,算核心用户。

数据可视化

以上就是RFM模型了,那么有了模型之后,我们就能直观地看到各个层级下的用户分布以及用户价值了:

from pyecharts.charts
试看结束,如继续查看请付费↓↓↓↓
打赏1元才能查看本内容,立即打赏
版权声明: 仅供个人学习参考 (禁止商用),本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系邮箱jkhui22@126.com,本站将立刻删除。

相关推荐

二维码
评论