当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习第5天：逻辑回归

发布时间：2025/4/5 编程问答 34 豆豆

生活随笔收集整理的这篇文章主要介绍了机器学习第5天：逻辑回归小编觉得挺不错的,现在分享给大家,帮大家做个参考.

文章目录

一、环境
二、具体实现步骤
- 第1步：数据预处理
- - 导入库
  - 导入数据
  - 将数据集分成训练集和测试集
- 第2步：逻辑回归模型
- 第3步：预测结果
- 第4步：评估预测结果
- - 可视化
三、可视化结果展示
四、逻辑回归是什么
五、利用matplotlib实现可视化
- 1. 函数讲解
- 2. 关于X_set[y_set==j,0]

一、环境

Python3.6.5
编译器：jupyter notebook

二、具体实现步骤

第1步：数据预处理

导入库

import numpy as np import matplotlib.pyplot as plt import pandas as pd

导入数据

dataset = pd.read_csv('Social_Network_Ads.csv') X = dataset.iloc[ : , [2,3]].values Y = dataset.iloc[ : ,4].values

将数据集分成训练集和测试集

from sklearn.model_selection import train_test_split X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25, random_state=0)

第2步：逻辑回归模型

from sklearn.linear_model import LogisticRegression classifier = LogisticRegression() classifier.fit(X_train, Y_train)

第3步：预测结果

Y_pred = classifier.predict(X_test)

第4步：评估预测结果

可视化

from matplotlib.colors import ListedColormap #1.训练集可视化 X_set,y_set=X_train,Y_trainx = np.arange(start=X_set[:,0].min()-1, stop=X_set[:, 0].max()+1, step=0.01) y = np.arange(start=X_set[:,1].min()-1, stop=X_set[:,1].max()+1, step=0.01) #把x，y绑定为网格的形式 X1,X2=np. meshgrid(x,y)plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(),X2.ravel()]).T).reshape(X1.shape),alpha = 0.75, cmap = ListedColormap(('red', 'green'))) plt.xlim(X1.min(),X1.max()) plt.ylim(X2.min(),X2.max()) for i,j in enumerate(np.unique(y_set)):plt.scatter(X_set[y_set==j,0],X_set[y_set==j,1],c = ListedColormap(('red', 'green'))(i), label=j)plt. title(' LOGISTIC(Training set)') plt. xlabel(' Age') plt. ylabel(' Estimated Salary') plt. legend() plt. show()#2.测试集可视化 X_set,y_set=X_test,Y_testx = np.arange(start=X_set[:,0].min()-1, stop=X_set[:, 0].max()+1, step=0.01) y = np.arange(start=X_set[:,1].min()-1, stop=X_set[:,1].max()+1, step=0.01) #把x，y绑定为网格的形式 X1,X2=np. meshgrid(x,y)plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(),X2.ravel()]).T).reshape(X1.shape),alpha = 0.75, cmap = ListedColormap(('red', 'green'))) plt.xlim(X1.min(),X1.max()) plt.ylim(X2.min(),X2.max()) for i,j in enumerate(np.unique(y_set)):plt.scatter(X_set[y_set==j,0],X_set[y_set==j,1],c = ListedColormap(('red', 'green'))(i), label=j)plt. title(' LOGISTIC(Test set)') plt. xlabel(' Age') plt. ylabel(' Estimated Salary') plt. legend() plt. show()

三、可视化结果展示

四、逻辑回归是什么

简单来说，逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。

逻辑回归是为了解决分类问题，根据一些已知的训练集训练好模型，再对新的数据进行预测属于哪个类。

逻辑回归（Logistic Regression）与线性回归（Linear Regression）都是一种广义线性模型（generalized linear model）。逻辑回归假设因变量 y 服从伯努利分布，而线性回归假设因变量 y 服从高斯分布。（这部分暂时了解了即可）

这篇博客简单介绍一下逻辑回归是个什么东西，下一篇博客将展开对逻辑回归的具体介绍。

五、利用matplotlib实现可视化

1. 函数讲解

（1） np.arange()： arange([start,] stop[, step,], dtype=None)根据start与stop指定的范围以及step设定的步长，生成一个 ndarray可迭代对象。

（2） .ravel()： 将多维数组降为一维数组。

（3） .reshape()： A.reshape(X1.shape)将A的类型重塑为X1的shape。

（4） T： 实现数组转置和轴对换。例如：

arr = np.arange(15).reshape(3,5) """ 输出： array([[ 0, 1, 2, 3, 4],[ 5, 6, 7, 8, 9],[10, 11, 12, 13, 14]]) """ arr.T """ 输出： array([[ 0, 5, 10],[ 1, 6, 11],[ 2, 7, 12],[ 3, 8, 13],[ 4, 9, 14]]) """

（5）.meshgrid()： meshgrid函数用两个坐标轴上的点在平面上画网格。

（6）.contourf()： 用来画红绿两种结果的分界线， classifier.predict(np.array([X1.ravel(),X2.ravel()]).T).reshape(X1.shape)，这个是利用逻辑回归模型预测分界线。

（7）xlim： plt.xlim设置x坐标轴范围。

（8）ylim： plt.ylim设置y坐标轴范围。

（9）unque()： 是一个去重函数。

（10）enumerate： 用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。

今天先了解一下利用matplotlib实现可视化，明天将对matplotlib进行详细介绍。

2. 关于X_set[y_set==j,0]

for i,j in enumerate(np.unique(y_set)):plt.scatter(X_set[y_set==j,0],X_set[y_set==j,1],c = ListedColormap(('red', 'green'))(i), label=j)

关于这个点小编也是半懂，简单谈一下我的理解。y_set == j的结果是一个布尔值这个是肯定的，当y_set == j的结果为False时，plt.scatter语句不执行；当y_set == j的结果为True时，plt.scatter语句执行，X_set[y_set==j,0]的作用效果相当于X_set[ : ,0]。

附上老外的看法：What does X_set[y_set == j, 0] mean?

有不同见解的童鞋可以在下方留言，我们一起交流。

总结

以上是生活随笔为你收集整理的机器学习第5天：逻辑回归的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇：机器学习第4天：线性回归及梯度下降
下一篇：机器学习第6天：数据可视化神器--Mat