【译文】用Python实现简单和多重线性回归--预测波士顿房价

2019年7月1日 467次阅读来源: 简杨君

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》

快速介绍Python中的线性回归

嗨，大家好！在简要介绍Panads库和NumPy库之后，我想快速介绍一下在Python中构建模型，还有什么比最基本的线性模型更好的开始呢？这将是关于机器学习的第一篇文章，我打算在将来写一些更复杂的模型。敬请关注！但是现在，让我们来关注线性回归。

在这篇博文中，我想关注线性回归的概念，主要是在Python中实现它。线性回归是用于检查两个（简单线性回归）或更多（多重线性回归）变量之间的线性关系的统计模型 – 一个因变量和自变量（s）。线性关系基本上意味着当一个（或多个）自变量增加（或减少）时，因变量也增加（或减少）：

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》

正如你所见，线性关系可以是正的（自变量上升，因变量上升）或负（自变量上升，因变量下降）。就像我说的那样，我将专注于Python中的回归模型的实现，所以我不想在回归基础的数学中深入研究，但我会写一点。如果你想写一篇博客文章，请不要犹豫，写信给我答复！

一点关于数学的知识

变量Y和X之间的关系由下式表示：

Y'i = mX + b

在这个方程中，Y是因变量 – 或者我们试图预测或估计的变量；X是自变量，我们用来做出预测的变量；m是回归线的斜率 – 它代表X对Y的影响。换句话说，如果X增加1个单位，Y将正好增加m个单位。（“充分表达”：只有当我们知道X和Y有线性关系时，这才成立，几乎所有线性回归的情况都不是这样的！）b是一个常数，也称为Y轴的截距。如果X等于0，则为Y将等于b（注意：请参阅前面的充分表达！）。这不一定适用于现实生活中 – 我们并不总是知道X和Y之间的确切关系，或者具有确切的线性关系。

这些注意事项引导我们进行简单线性回归（SLR）。在SLR模型中，我们基于数据建立一个模型 – 从数据中得出的斜率和Y轴截距；此外，我们不需要X和Y之间的关系是完全线性的。SLR模型还包括数据中的误差（也称为残差）。我现在不会讲太多，也许在后来的帖子中，但是残差基本上是Y的真实值与Y的预测/估计值之间的差异。需要注意的是在线性回归中，我们试图预测一个连续变量。在回归模型中，我们试图通过找到“最合适的线”来最小化这些误差 – 误差的回归线将是最小的。我们试图将黑线的长度（或更准确地说，蓝点的距离）从红线上减到最小- 尽可能接近于零。它与（或等于）最小化均方误差（MSE）或误差平方和（SSE）相关，也称为“残差平方和”（RSS），但这可能超出了这篇博文的范围:-)

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》

在大多数情况下，我们将有多个自变量 – 我们将有多个变量；它可以只有两个自变量，最多可以有数百个（或理论上甚至数千个）的变量。在这些情况下，我们将使用多重线性回归模型（MLR）。回归方程与简单回归方程差不多，只有更多的变量：

Y'i = b0 + b1X1i + b2X2i

这篇文章的数学部分到此结束:)准备好在Python中实现它了吗？

在Python中实现线性回归

在Python中执行线性回归有两种主要方法 – 使用Statsmodels和scikit-learn。也可以使用Scipy库，但我觉得这并不像我提到的另外两个库那么常见。我们来看两个线性回归：

Statsmodels中的线性回归

Statsmodels是一个Python模块，它提供用于估计许多不同统计模型的类和函数，以及进行统计测试和统计数据探索。（从文档中）

与Pandas和NumPy一样，获取或安装Statsmodels的最简单方法是通过Anaconda包。如果由于某种原因你有兴趣以其他方式安装，请查看此链接。安装完成后，每次要使用它时都需要导入它：

import statsmodels.api as sm

让我们来看看如何使用Statsmodels进行线性回归。我将使用我在DC大会上所做的数据科学课程的一个例子：

首先，我们从sklearn（我提到的另一个库）导入数据集：

from sklearn import datasets ## 从scikit-learn导入数据集
data = datasets.load_boston() ## 从数据集库加载波士顿数据集

这是波士顿房价的数据集（链接到说明）。因为它是用于测试和学习机器学习工具的数据集，它附带了对数据集的描述，我们可以通过使用命令print data.DESCR来看到它（这只适用于sklearn数据集，而不是每个数据集！虽然很酷…）我添加了描述的开头，以便更好地了解变量：

Boston House Prices dataset
===========================

Notes
------
Data Set Characteristics:  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive
    
    :Median Value (attribute 14) is usually the target

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
        - B        1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
        - LSTAT    % lower status of the population
        - MEDV     Median value of owner-occupied homes in $1000's

    :Missing Attribute Values: None

    :Creator: Harrison, D. and Rubinfeld, D.L.

This is a copy of UCI ML housing dataset.
http://archive.ics.uci.edu/ml/datasets/Housing


This dataset was taken from the StatLib library which is maintained at Carnegie Mellon University.

运行data.feature_names和data.target将分别打印自变量和因变量的列名。意思是，Scikit学习已经将房屋价值/价格数据设置为目标变量，并将13个其他变量设置为预测变量。我们来看看如何对这个数据集进行线性回归。

首先，我们应该将数据作为pandas数据框加载，以便于分析，并将住房价值中位数值设置为目标变量：

import numpy as np
import pandas as pd

# 将数据/预测变量定义为预设的特征名称 
df = pd.DataFrame(data.data, columns=data.feature_names)

# 将目标 (住房价值 -- MEDV) 放到另一个DataFrame
target = pd.DataFrame(data.target, columns=["MEDV"])

我们在这里做的是获取数据集并将其作为pandas数据框加载；之后，我们设置预测变量（如df） – 在数据集中预先设置的自变量。我们还设定了目标 – 因变量，或者我们试图预测/估计的变量。

接下来，我们将要拟合线性回归模型。我们需要选择我们认为对因变量有好的预测因子的变量 – 可以通过检查变量之间的相关性来完成，通过绘制数据和可视化来完成，通过对什么变量进行初步研究是y的良好预测因子。对于第一个例子，让我们来看RM – 平均房间数量和LSTAT – 居民人数降低的百分比。值得注意的是，Statsmodels在默认情况下不会添加常量。让我们先看一下我们的回归模型中没有一个常数：

## 没有一个常数

import statsmodels.api as sm

X = df["RM"]
y = target["MEDV"]

# 注意参数顺序的区别
model = sm.OLS(y, X).fit()
predictions = model.predict(X) # 通过模型进行预测

# 打印出统计模型
model.summary()

输出：

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》

解释表 – 这是一张很长的表，对吧？首先，我们有什么是因变量，模型和方法。OLS代表普通最小二乘法，方法“最小二乘法”意味着我们试图拟合一条回归线，使回归线距离的平方最小化（参阅本文前面部分）。日期和时间非常不言自明:)所以观察数字。残差和模型的Df与自由度有关 - “最终计算的数值可以自由变化的统计量”。

3.634的系数意味着随着RM变量增加1，MDEV的预测值增加了3.634。其他一些重要的值是R² – 我们的模型解释的方差百分比；标准误差（是统计量的抽样分布的标准偏差，最常见的均值）；假设检验的t分数和p值，RM具有统计学显著的p值；95％的置信区间RM（意思是我们预测95％的置信度RM的值在3.548至3.759之间）。

如果我们要在模型中添加一个常数 – 我们必须使用命令来设置它，X = sm.add_constant(X)其中X是包含输入（自）变量的数据框的名称。

import statsmodels.api as sm # 导入statsmodels 

X = df["RM"] ## X通常表示我们的输入变量 (或自变量)
y = target["MEDV"] ## Y通常表示输出/因变量
X = sm.add_constant(X) ## 我们添加一个截距（beta_0）到我们的模型

# 注意参数顺序的区别
model = sm.OLS(y, X).fit() ## sm.OLS(输出, 输入)
predictions = model.predict(X)

# 打印出统计模型
model.summary()

输出：

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》

解释表 – 用常数项，系数是不同的。没有一个常数，我们就会强迫我们的模型通过原点，但现在我们在-34.67有一个y截距。我们还将RM预测因子的斜率从3.634改为9.1021。

现在让我们尝试用一个以上变量来训练回归模型，我们将使用之前提到的RM和LSTAT。模型拟合是一样的：

X = df[[“RM”, “LSTAT”]]
y = target[“MEDV”]

model = sm.OLS(y, X).fit()
predictions = model.predict(X)

model.summary()

输出：

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》注意：这张表看起来不一样，因为我已经更新了我的Jupyter Notebook

解释输出 – 我们可以看到这个模型具有更高的R² – 0.948，这意味着这个模型解释了我们的因变量的94.8％的方差。每当我们将变量添加到回归模型中时，R²将更高，但这是相当高的R²。我们可以看出，RM和LSTAT在预测（或估计）房屋价值中位数时具有统计学意义；毫不奇怪，我们看到，随着RM增加1，MEDV将增加4.9069，当LSTAT增加1时，MEDV将下降 -0.6557。你可能记得，LSTAT是人口下降的百分比，不幸的是我们可以预期它会降低房屋的中位数。同样的逻辑，房子里的房间越多，它的价值就越高。

这是Statsmodels中单一和多元线性回归的例子。我们可以在我们的回归模型中使用尽可能少或尽可能多的的变量，直到所有的13个变量！接下来，我将演示如何在SKLearn中运行线性回归模型。

SKLearn中的线性回归

在Python中的机器学习方面，SKLearn几乎是黄金标准。它有许多学习算法，用于回归，分类，聚类和降维。查看我在关于KNN算法的文章，了解不同算法的映射以及与SKLearn的更多链接。为了使用线性回归，我们需要导入它：

from sklearn import linear_model

我们使用之前使用的数据集，波士顿房价。开始的过程是一样的 – 从SKLearn导入数据集并加载到波士顿数据集：

from sklearn import datasets ## 从scikit-learn导入数据集
data = datasets.load_boston() ## 从数据集库中加载波士顿数据集

接下来，我们将把数据加载到Pandas（和之前一样）：

# 将数据/预测变量定义为预设的特征名称
df = pd.DataFrame(data.data, columns=data.feature_names)

# 将目标 (住房价值 -- MEDV) 放到另一个DataFrame
target = pd.DataFrame(data.target, columns=["MEDV"])

所以现在，像以前一样，我们拥有包含自变量（标记为“df”）的数据框和带有因变量（标记为“target”）的数据框。我们使用SKLearn拟合一个回归模型。首先我们定义我们的X和y – 这一次我将使用数据框中的所有变量来预测房价：

X = df
y = target[“MEDV”]

然后我们拟合一个模型：

lm = linear_model.LinearRegression()
model = lm.fit(X,y)

lm.fit()函数来拟合线性模型。我们想使用这个模型做出预测（这就是我们在这里的目的！），所以我们使用lm.predict()：

predictions = lm.predict(X)
print(predictions)[0:5]

译者注：print(predictions)[0:5]应该为print(predictions[0:5])

打印函数将打印出对y的前5个预测值（我没有把整个列表打印出来，以“节省空间”）。删除[0:5]将打印整个列表）：

[ 30.00821269  25.0298606   30.5702317   28.60814055  27.94288232]

记住，lm.predict()使用我们拟合的线性模型预测y（因变量）。你们必须注意到，当我们使用SKLearn进行线性回归时，我们没有得到一个漂亮的表（好吧，这并不是那么漂亮…但它很有用）像在Statsmodels。我们可以做的是使用内置函数来返回分数、系数和估计的截距。让我们看看它是如何工作的：

lm.score(X,y)

会给出这个输出：

0.7406077428649428

这是我们模型的R²得分。你可能记得，这是预测方差的百分比。如果你有兴趣，阅读这里了解更多内容。接下来，我们来看看预测因子的系数：

lm.coef_

会给出这个输出：

array([ -1.07170557e-01,   4.63952195e-02,   2.08602395e-02,
         2.68856140e+00,  -1.77957587e+01,   3.80475246e+00,
         7.51061703e-04,  -1.47575880e+00,   3.05655038e-01,
        -1.23293463e-02,  -9.53463555e-01,   9.39251272e-03,
        -5.25466633e-01])

和截距：

lm.intercept_

这将给出这个输出：

36.491103280363134

这些都是我之前提到的多元回归方程的（估计/预测）部分。查看文档了解更多关于coef_和intercept_的更多信息。

所以，这是一个关于如何在Python中进行线性回归的快速（但很长的！）的介绍。实际上，你不会使用整个数据集，但是你会将数据分成训练数据来训练你的模型和测试数据，你猜对了，测试你的模型/预测。如果你想阅读它，请查看我的下一篇博文。同时，我希望你喜欢这篇文章，我会在下一篇文章“看到”你。

谢谢阅读！

机器学习 数据科学 线性回归 统计

原文地址：https://medium.com/towards-data-science/simple-and-multiple-linear-regression-in-python-c928425168f9

    原文作者：简杨君
    原文地址: https://www.jianshu.com/p/edaaa78fb6a1
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。