机器学习:基于逻辑回归对超市销售活动预测分析
创始人
2025-05-31 06:43:48
0

在这里插入图片描述

系列文章目录

作者:i阿极

作者简介:Python领域新星作者:博主个人首页

😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍

📜📜📜如果有小伙伴需要数据集和学习交流,文章下方有交流学习区!一起学习进步!💪


订阅专栏案例:机器学习
机器学习:基于逻辑回归对某银行客户违约预测分析
机器学习:学习k-近邻(KNN)模型建立、使用和评价
机器学习:基于支持向量机(SVM)进行人脸识别预测
决策树算法分析天气、周末和促销活动对销量的影响
机器学习:线性回归分析女性身高与体重之间的关系
机器学习:基于主成分分析(PCA)对数据降维
机器学习:基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测
机器学习:学习KMeans算法,了解模型创建、使用模型及模型评价
机器学习:基于神经网络对用户评论情感分析预测
机器学习:朴素贝叶斯模型算法原理(含实战案例)
机器学习:逻辑回归模型算法原理(附案例实战)
机器学习:基于逻辑回归对优惠券使用情况预测分析

文章目录

  • 系列文章目录
  • 1、实验背景
  • 2、实验数据说明
  • 3、实验环境
  • 4、实验内容
  • 5、实验步骤
    • 5.1导入数据
    • 5.2数据探索
    • 5.3处理非数值型变量
    • 5.4构造模型


1、实验背景

一家超级市场正在计划年终促销。他们想推出一个新的优惠——黄金会员资格,所有购买的产品都有20%的折扣,只需499美元,其他日子里是999美元。该优惠政策将只对现有客户有效,目前他们正计划通过电话进行宣传。
管理层认为,降低活动成本的最好方法是建立一个预测模型,首先将可能购买该优惠的客户进行分类。

2、实验数据说明

数据信息是在去年的活动中收集的,以下为数据描述:

字段说明
Id每个客户的独特ID
Year_Birth客户的年龄
Education顾客的教育水平
Marital_Status客户的婚姻状况
Income客户的家庭年收入
Kidhome客户家庭中小孩的数量
Teenhome客户家庭中的青少年人数
Dt_Customer客户在公司注册的日期
Recency自上次购买以来的天数
MntWines在过去的两年中,购买葡萄酒产品的金额
MntFruits在过去的2年里,购买水果产品的消费金额
MntMeatProducts在过去的两年中,花在肉类产品上的金额
MntFishProducts在过去的两年中,花在鱼类产品上的金额
MntSweetProducts在过去两年中,花在甜食产品上的金额
MntGoldProds在过去的两年中,购买黄金产品的消费金额
NumDealsPurchases使用折扣购买的数量
NumWebPurchases通过公司网站购买的数量
NumCatalogPurchases使用目录购买的数量(购买货物通过邮件发送)。
NumStorePurchases直接在商店购买的数量
NumWebVisitsMonth上个月访问公司网站的次数
Response目标变量 - 如果客户在上一次活动中接受了报价,则为1,否则为0
Complain如果客户在过去两年中投诉,则为1

3、实验环境

Python 3.9

Anaconda

Jupyter Notebook

4、实验内容

使用逻辑回归对超市销售活动预测分析

5、实验步骤

5.1导入数据

import pandas as pd
import numpy as np
data = pd.read_csv("/home/mw/superstore_data.csv")
data.head()

在这里插入图片描述

5.2数据探索

查看数据数量

data.shape

在这里插入图片描述

有2240行,22个特征值

查看基本信息

data.info()

在这里插入图片描述

发现Income列有缺失值,接下来需要对缺失值进行处理

观察Income列缺失的行

income_missing = data[data.Income.isnull()]
income_missing

在这里插入图片描述

从他们的Year_Birth中发现,很多都是1960年之前的人,很有可能退休了(2023-65=1958)

before = income_missing[income_missing.Year_Birth < 1961]
after = income_missing[income_missing.Year_Birth > 1961]
import matplotlib.pyplot as plt
plt.bar(['before 1961','after 1961'],[len(before),len(after)])
plt.show()

在这里插入图片描述

对于可能退休的人(小于1961)我们用0填充,其他的用平均值

data.loc[(data['Year_Birth'] < 1961) & (data['Income'].isnull())] =data.loc[(data['Year_Birth'] < 1961) & (data['Income'].isnull())].fillna(0)
data.Income = data.Income.fillna(data.Income.mean())
data.isnull().sum()

在这里插入图片描述

对于可能退休的人(小于1961)我们用0填充,其他的用平均值,已经没有缺失值。

5.3处理非数值型变量

查看类型为object的列

non_num_cols = [cols for cols in data.columns if data[cols].dtype == 'object']
non_num_cols

在这里插入图片描述

首先我们将Dt_Customer转化为日期格式

data['Dt_Customer'] = pd.to_datetime(data['Dt_Customer'])

处理类别变量,先来看看有几种类别

data.Education.value_counts()

在这里插入图片描述

data.Marital_Status.value_counts()

在这里插入图片描述

因为alone、YOLO、Abusurd样本数很少,所以本次分析将 alone、YOLO、Abusurd 统一归为 Single。

data.Marital_Status = data.Marital_Status.replace(['Alone','YOLO','Absurd'],'Single')
data.Marital_Status.value_counts()

在这里插入图片描述


Marital_Status = pd.get_dummies(data.Marital_Status,prefix='Marital_Status')
data = data.drop('Marital_Status',axis=1).join(Marital_Status)

同理应用于教育状况

Education = pd.get_dummies(data.Education,prefix='Education')
data = data.drop('Education',axis=1).join(Education)
data

在这里插入图片描述

再来看看处理之后的特征值

data.info()

在这里插入图片描述

5.4构造模型

划分训练集和测试集

from sklearn.model_selection import train_test_split
y = data.Response  #目标变量
X = data.drop('Response',axis=1)
train_x,val_x,train_y,val_y = train_test_split(X,y,train_size=0.8,test_size=0.2,random_state=0)

用统计的方法看看相关性

cor = data.corr()
features = cor[(cor['Response'] < -0.1) | (cor['Response'] > 0.1)] .index.drop('Response')

模型搭建

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(train_x[features],train_y)

验证

prey = lr.predict(val_x[features])
from sklearn.metrics import accuracy_score
accuracy_score(val_y,prey)

在这里插入图片描述
开始预测

predictions = lr.predict(data[features])
results = pd.DataFrame(data={'Id':data.Id,'Response':predictions})
results[:15]

在这里插入图片描述


📢文章下方有交流学习区!一起学习进步!💪💪💪
📢创作不易,如果觉得文章不错,可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗

相关内容

热门资讯

海南全岛封关时间定了!啥是封关... 国家发展改革委副主任王昌林7月23日在国新办发布会上表示,关于海南自贸港封关的具体时间,经党中央批准...
华能国际完成发行20亿元科技创... 7月23日早间,华能国际发布公告称,公司已于近日完成2025年面向专业投资者公开发行科技创新可续期公...
AWS的智能体基础设施布局:开... 智能体基础设施正在快速成为人工智能下一次飞跃的支柱——不仅仅是实现智能化,更是协调其安全、高效和大规...
中国移动、中国电信、中国联通,... 莫名其妙订了新业务、套餐资费眼花缭乱、接到境外骚扰电话,这些都是电信用户常见的消费痛点。近日,中国移...
上海黄金回收价高秤准还懂老物件... 上海宝易埠珠宝:黄金回收背后的故事 在上海这个繁华喧嚣的大都市,每一条街道都诉说着独特的故事,每一家...
厉害!浙大95后博导白天搞科研... 白天,他是数字法学界的“破壁者”。傍晚,他是“浙BA”球场上的“破局者”。五冠加身的荣耀,科研攻坚的...
宏润建设:7月22日融资买入1... 证券之星消息,7月22日,宏润建设(002062)融资买入1454.54万元,融资偿还8319.83...
苹果在华销售额二季度同比下滑1... 7月23日消息,据多家媒体报道,根据市场调研机构Counterpoint最新数据,2025年第二季度...
恒生电子:7月22日融券卖出2... 证券之星消息,7月22日,恒生电子(600570)融资买入2.37亿元,融资偿还3.05亿元,融资净...
上交所:苏州创元投资发展(集团... 7月23日,上交所发布关于苏州创元投资发展(集团)有限公司2025年面向专业投资者公开发行科技创新公...
和讯投顾赵冰忆:水电站概念盘活... 7月22日,和讯投顾赵冰忆表示,眼下水电站概念足以盘活市场。一方面,水电站有定远方面的业务支撑;另一...
注册资本150亿元,中国聚变能... 可控核聚变概念图 图片来源:视觉中国 7月22日晚间,中国核电发布消息称,当日由其参股的中国聚变能源...
天力复合:7月22日融资买入1... 证券之星消息,7月22日,天力复合(873576)融资买入145.39万元,融资偿还168.55万元...
“3C”标志非商品 违法制售要... 马云骢 “禁止旅客携带没有3C标识、3C标识不清晰、被召回型号或批次的充电宝乘坐境内航班。”近期,民...
亚通股份被责令改正,时任董事长... 雷达财经 文|冯秀语 编|李亦辉 7月22日,上海亚通股份有限公司(证券简称:亚通股份,证券代码:6...
京东美团杀入了同一片战场 作者 | 周智宇 编辑 | 张晓玲 在具身智能的牌桌上,美团一直是那个下注最凶的玩家。它早已将触角伸...
业务创新 | 商业银行谱写养老... 文/中国建设银行平台运营中心 张丰安 肖璧微 我国人口老龄化问题加剧,养老金融发展面临严峻挑战,20...
多行业“反内卷”,持续推进中! 汽车、光伏、水泥、钢铁,不同行业,同在“反内卷”!从7月1日中央财经委员会第六次会议,到近期国务院常...
运输规模稳步增长!今年上半年我... (央视财经《经济信息联播》)今天(21日),民航局相关负责人在国新办新闻发布会上介绍,“十四五”期间...
对话Outer创始人刘佳科:6... 作者:欧雪 编辑:彭孝秋 Outer又有新动作了,这次是推出第二个大单品。 2018年,Outer第...