【译文】用Python实现简单和多重线性回归--预测波士顿房价

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》

快速介绍Python中的线性回归

嗨,大家好!在简要介绍Panads库NumPy库之后,我想快速介绍一下在Python中构建模型,还有什么比最基本的线性模型更好的开始呢?这将是关于机器学习的第一篇文章,我打算在将来写一些更复杂的模型。敬请关注!但是现在,让我们来关注线性回归。

在这篇博文中,我想关注线性回归的概念,主要是在Python中实现它。线性回归是用于检查两个(简单线性回归)或更多(多重线性回归)变量之间的线性关系的统计模型 – 一个因变量和自变量(s)。线性关系基本上意味着当一个(或多个)自变量增加(或减少)时,因变量也增加(或减少):

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》

正如你所见,线性关系可以是正的(自变量上升,因变量上升)或负(自变量上升,因变量下降)。就像我说的那样,我将专注于Python中的回归模型的实现,所以我不想在回归基础的数学中深入研究,但我会写一点。如果你想写一篇博客文章,请不要犹豫,写信给我答复!

一点关于数学的知识

变量Y和X之间的关系由下式表示:

Y'i = mX + b

在这个方程中,Y是因变量 – 或者我们试图预测或估计的变量;X是自变量,我们用来做出预测的变量;m是回归线的斜率 – 它代表X对Y的影响。换句话说,如果X增加1个单位,Y将正好增加m个单位。(“充分表达”:只有当我们知道X和Y有线性关系时,这才成立,几乎所有线性回归的情况都不是这样的!)b是一个常数,也称为Y轴的截距。如果X等于0,则为Y将等于b(注意:请参阅前面的充分表达!)。这不一定适用于现实生活中 – 我们并不总是知道X和Y之间的确切关系,或者具有确切的线性关系。

这些注意事项引导我们进行简单线性回归(SLR)。在SLR模型中,我们基于数据建立一个模型 – 从数据中得出的斜率和Y轴截距;此外,我们不需要XY之间的关系是完全线性的。SLR模型还包括数据中的误差(也称为残差)。我现在不会讲太多,也许在后来的帖子中,但是残差基本上是Y的真实值与Y的预测/估计值之间的差异。需要注意的是在线性回归中,我们试图预测一个连续变量。在回归模型中,我们试图通过找到“最合适的线”来最小化这些误差 – 误差的回归线将是最小的。我们试图将黑线的长度(或更准确地说,蓝点的距离)从红线上减到最小- 尽可能接近于零。它与(或等于)最小化均方误差(MSE)误差平方和(SSE)相关,也称为“残差平方和”(RSS),但这可能超出了这篇博文的范围:-)

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》

在大多数情况下,我们将有多个自变量 – 我们将有多个变量;它可以只有两个自变量,最多可以有数百个(或理论上甚至数千个)的变量。在这些情况下,我们将使用多重线性回归模型(MLR)。回归方程与简单回归方程差不多,只有更多的变量:

Y'i = b0 + b1X1i + b2X2i

这篇文章的数学部分到此结束:)准备好在Python中实现它了吗?

在Python中实现线性回归

在Python中执行线性回归有两种主要方法 – 使用Statsmodelsscikit-learn。也可以使用Scipy库,但我觉得这并不像我提到的另外两个库那么常见。我们来看两个线性回归:

Statsmodels中的线性回归

Statsmodels是一个Python模块,它提供用于估计许多不同统计模型的类和函数,以及进行统计测试和统计数据探索。(从文档中)

PandasNumPy一样,获取或安装Statsmodels的最简单方法是通过Anaconda包。如果由于某种原因你有兴趣以其他方式安装,请查看此链接。安装完成后,每次要使用它时都需要导入它:

import statsmodels.api as sm

让我们来看看如何使用Statsmodels进行线性回归。我将使用我在DC大会上所做数据科学课程的一个例子:

首先,我们从sklearn(我提到的另一个库)导入数据集

from sklearn import datasets ## 从scikit-learn导入数据集
data = datasets.load_boston() ## 从数据集库加载波士顿数据集

这是波士顿房价数据集(链接到说明)。因为它是用于测试和学习机器学习工具的数据集,它附带了对数据集的描述,我们可以通过使用命令print data.DESCR来看到它(这只适用于sklearn数据集,而不是每个数据集!虽然很酷…)我添加了描述的开头,以便更好地了解变量:

Boston House Prices dataset
===========================

Notes
------
Data Set Characteristics:  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive
    
    :Median Value (attribute 14) is usually the target

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
        - B        1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
        - LSTAT    % lower status of the population
        - MEDV     Median value of owner-occupied homes in $1000's

    :Missing Attribute Values: None

    :Creator: Harrison, D. and Rubinfeld, D.L.

This is a copy of UCI ML housing dataset.
http://archive.ics.uci.edu/ml/datasets/Housing


This dataset was taken from the StatLib library which is maintained at Carnegie Mellon University.

运行data.feature_names和data.target将分别打印自变量和因变量的列名。意思是,Scikit学习已经将房屋价值/价格数据设置为目标变量,并将13个其他变量设置为预测变量。我们来看看如何对这个数据集进行线性回归。

首先,我们应该将数据作为pandas数据框加载,以便于分析,并将住房价值中位数值设置为目标变量:

import numpy as np
import pandas as pd

# 将数据/预测变量定义为预设的特征名称 
df = pd.DataFrame(data.data, columns=data.feature_names)

# 将目标 (住房价值 -- MEDV) 放到另一个DataFrame
target = pd.DataFrame(data.target, columns=["MEDV"])

我们在这里做的是获取数据集并将其作为pandas数据框加载;之后,我们设置预测变量(如df) – 在数据集中预先设置的自变量。我们还设定了目标 – 因变量,或者我们试图预测/估计的变量。

接下来,我们将要拟合线性回归模型。我们需要选择我们认为对因变量有好的预测因子的变量 – 可以通过检查变量之间的相关性来完成,通过绘制数据和可视化来完成,通过对什么变量进行初步研究是y的良好预测因子。对于第一个例子,让我们来看RM – 平均房间数量和LSTAT – 居民人数降低的百分比。值得注意的是,Statsmodels在默认情况下不会添加常量。让我们先看一下我们的回归模型中没有一个常数:

## 没有一个常数

import statsmodels.api as sm

X = df["RM"]
y = target["MEDV"]

# 注意参数顺序的区别
model = sm.OLS(y, X).fit()
predictions = model.predict(X) # 通过模型进行预测

# 打印出统计模型
model.summary()

输出:

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》

解释表 – 这是一张很长的表,对吧?首先,我们有什么是因变量,模型和方法。OLS代表普通最小二乘法,方法“最小二乘法”意味着我们试图拟合一条回归线,使回归线距离的平方最小化(参阅本文前面部分)。日期和时间非常不言自明:)所以观察数字。残差和模型的Df与自由度 有关 - “最终计算的数值可以自由变化的统计量”。

3.634的系数意味着随着RM变量增加1,MDEV的预测值增加了3.634。其他一些重要的值是R² – 我们的模型解释的方差百分比;标准误差(是统计量的抽样分布的标准偏差,最常见的均值);假设检验的t分数和p值,RM具有统计学显著的p值;95%的置信区间RM(意思是我们预测95%的置信度RM的值在3.548至3.759之间)。

如果我们要在模型中添加一个常数 – 我们必须使用命令来设置它,X = sm.add_constant(X)其中X是包含输入(自)变量的数据框的名称。

import statsmodels.api as sm # 导入statsmodels 

X = df["RM"] ## X通常表示我们的输入变量 (或自变量)
y = target["MEDV"] ## Y通常表示输出/因变量
X = sm.add_constant(X) ## 我们添加一个截距(beta_0)到我们的模型

# 注意参数顺序的区别
model = sm.OLS(y, X).fit() ## sm.OLS(输出, 输入)
predictions = model.predict(X)

# 打印出统计模型
model.summary()

输出:

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》

解释表  – 用常数项,系数是不同的。没有一个常数,我们就会强迫我们的模型通过原点,但现在我们在-34.67有一个y截距。我们还将RM预测因子的斜率从3.634改为9.1021。

现在让我们尝试用一个以上变量来训练回归模型,我们将使用之前提到的RM和LSTAT。模型拟合是一样的:

X = df[[“RM”, “LSTAT”]]
y = target[“MEDV”]

model = sm.OLS(y, X).fit()
predictions = model.predict(X)

model.summary()

输出:

《【译文】用Python实现简单和多重线性回归--预测波士顿房价》 注意:这张表看起来不一样,因为我已经更新了我的Jupyter Notebook

解释输出  – 我们可以看到这个模型具有更高的R² – 0.948,这意味着这个模型解释了我们的因变量的94.8%的方差。每当我们将变量添加到回归模型中时,R²将更高,但这是相当高的R²。我们可以看出,RM和LSTAT在预测(或估计)房屋价值中位数时具有统计学意义;毫不奇怪,我们看到,随着RM增加1,MEDV将增加4.9069,当LSTAT增加1时,MEDV将下降 -0.6557。你可能记得,LSTAT是人口下降的百分比,不幸的是我们可以预期它会降低房屋的中位数。同样的逻辑,房子里的房间越多,它的价值就越高。

这是Statsmodels中单一和多元线性回归的例子。我们可以在我们的回归模型中使用尽可能少或尽可能多的的变量,直到所有的13个变量!接下来,我将演示如何在SKLearn中运行线性回归模型。

SKLearn中的线性回归

在Python中的机器学习方面,SKLearn几乎是黄金标准。它有许多学习算法,用于回归,分类,聚类和降维。查看我在关于KNN算法的文章,了解不同算法的映射以及与SKLearn的更多链接。为了使用线性回归,我们需要导入它:

from sklearn import linear_model

我们使用之前使用的数据集,波士顿房价。开始的过程是一样的 – 从SKLearn导入数据集并加载到波士顿数据集:

from sklearn import datasets ## 从scikit-learn导入数据集
data = datasets.load_boston() ## 从数据集库中加载波士顿数据集

接下来,我们将把数据加载到Pandas(和之前一样):

# 将数据/预测变量定义为预设的特征名称
df = pd.DataFrame(data.data, columns=data.feature_names)

# 将目标 (住房价值 -- MEDV) 放到另一个DataFrame
target = pd.DataFrame(data.target, columns=["MEDV"])

所以现在,像以前一样,我们拥有包含自变量(标记为“df”)的数据框和带有因变量(标记为“target”)的数据框。我们使用SKLearn拟合一个回归模型。首先我们定义我们的X和y – 这一次我将使用数据框中的所有变量来预测房价:

X = df
y = target[“MEDV”]

然后我们拟合一个模型:

lm = linear_model.LinearRegression()
model = lm.fit(X,y)

lm.fit()函数来拟合线性模型。我们想使用这个模型做出预测(这就是我们在这里的目的!),所以我们使用lm.predict():

predictions = lm.predict(X)
print(predictions)[0:5]

译者注:print(predictions)[0:5]应该为print(predictions[0:5])

打印函数将打印出对y的前5个预测值(我没有把整个列表打印出来,以“节省空间”)。删除[0:5]将打印整个列表):

[ 30.00821269  25.0298606   30.5702317   28.60814055  27.94288232]

记住,lm.predict()使用我们拟合的线性模型预测y(因变量)。你们必须注意到,当我们使用SKLearn进行线性回归时,我们没有得到一个漂亮的表(好吧,这并不是那么漂亮…但它很有用)像在Statsmodels。我们可以做的是使用内置函数来返回分数、系数和估计的截距。让我们看看它是如何工作的:

lm.score(X,y)

会给出这个输出:

0.7406077428649428

这是我们模型的R²得分。你可能记得,这是预测方差的百分比。如果你有兴趣,阅读这里了解更多内容。接下来,我们来看看预测因子的系数:

lm.coef_

会给出这个输出:

array([ -1.07170557e-01,   4.63952195e-02,   2.08602395e-02,
         2.68856140e+00,  -1.77957587e+01,   3.80475246e+00,
         7.51061703e-04,  -1.47575880e+00,   3.05655038e-01,
        -1.23293463e-02,  -9.53463555e-01,   9.39251272e-03,
        -5.25466633e-01])

和截距:

lm.intercept_

这将给出这个输出:

36.491103280363134

这些都是我之前提到的多元回归方程的(估计/预测)部分。查看文档了解更多关于coef_和intercept_的更多信息。

所以,这是一个关于如何在Python中进行线性回归的快速(但很长的!)的介绍。实际上,你不会使用整个数据集,但是你会将数据分成训练数据来训练你的模型和测试数据,你猜对了,测试你的模型/预测。如果你想阅读它,请查看我的下一篇博文。同时,我希望你喜欢这篇文章,我会在下一篇文章“看到”你。

谢谢阅读!

机器学习 数据科学 线性回归 统计

原文地址:https://medium.com/towards-data-science/simple-and-multiple-linear-regression-in-python-c928425168f9

    原文作者:简杨君
    原文地址: https://www.jianshu.com/p/edaaa78fb6a1
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞