[框架]Scikit-Learn

基本上Scikit-Learn的使用非常簡單,比較像是工具包,大多是需要了解原理直接調用不同函數,這篇做一些基本的介紹,大致熟悉一下,使用時直接查詢手冊目錄的介紹與範例即可。

Scikit-Learn

Scikit-Learn官網
Scikit-Learn英文文檔
Scikit-Learn中文文檔

選擇正確的評估器(Choosing the right estimator)

Flow Chart

《[框架]Scikit-Learn》

加載數據集

數據集可以從外存讀取後做資料前處理,Scikit-Learn本身也提供一些整理好的數據集可以下載,以及提供一些數據生成器可以用來用來生成數據,匯入模組import sklearn.datasets,詳細數據格式及加載說明請參考API文檔

線性回歸

Ordinary Least Squares
OLS(普通最小二乘)線性回歸中有2種求解法,一種是直接法,求解涉及到矩陣的求逆,當特徵矩陣數據量過大,求逆是一個很耗時的過程,我們可以使用先對特徵矩陣做奇異值分解(SVD)後再求廣義逆,但通常是使用另一種梯度下降法繞過求逆的過程。
OLS算法使用的前提是必須滿足數據集無多重共線性,因為它是無偏估計,這也使它非常懼怕多重共線性問題,會使矩陣近似於奇異矩陣,使得它往往得到的權重參數Variance大而造成overfitting現象,是一個不穩定的回歸算法,可以使用regularization或Dimension Reduction等等方法來解決。

z score normalization

Preprocessing data
StandardScaler

《[框架]Scikit-Learn》

《[框架]Scikit-Learn》

《[框架]Scikit-Learn》

Confusion matrix

confusion_matrix
Confusion matrix

《[框架]Scikit-Learn》

    原文作者:學也無涯
    原文地址: https://www.jianshu.com/p/7e9e83400bc4
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞