转载:http://www.jianshu.com/p/b73b6953e849 该资源的github地址:Qix 《Statistical foundations of machine learning》 介绍:《机器…
分类:机器学习
机器学习领域相关的大牛推荐(陆续更新)
不多说,直接上干货! 周志华:是南京大学的杰青,机器学习和数据挖掘方面国内的领军人物,其好几个…
[机器学习]numpy broadcast shape 机制
最近在做机器学习的时候,对未知对webshell检测,发现代码提示:ValueError: operands could not be broadcast together with shapes (1,3) (3766…
k近邻算法的优缺点
优点: 简单有效 重新训练的代价低(没有构建模型) 适合类域交叉样本 KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适…
朴素贝叶斯算法实现分类问题(三类)matlab代码
训练数据来源:http://archive.ics.uci.edu/ml/machine-learning-databases/balance-scale/balance-scale.data 数据简介 本训练数据共有6…
python 根据三点坐标计算夹角
最近在一些夹角计算的时候,根据三点坐标计算夹角,并封装为方法,方便以后调用。 def cal_ang(point_1, point_2, point_3): """ 根据三点坐标计算夹角 :param point_1: …
TF-IDF、词袋模型与特征工程
如标题,TF-IDF与词集词袋模型都是数据预处理中常用的算法,这里展示一下这两种算法的联合应用。 一. 词集与词袋模型 这个算法的主要作用也就是对文本做单词切分,有点从一篇文章里提取关键词这种意思,旨在用向量来描述文本的…
机器视觉以及验证码识别
机器视觉 从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广 泛且具有深远的影响和雄伟的愿景的领域。 我们将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些 Python库来识别和…
协同过滤推荐中利用SVD提高推荐的效果
1.什么是SVD :SVD指的是奇异值分解 SVD SVD的物理意义 2.利用Python实现SVD from numpy import linalg as la # Numpy有一个称为linalg的线性代数工具,其中…
为啥准确率不是个很好的评估标准?用作为评估标准为啥有局限性
准确率是分类问题中最直观最简单的评价标准,但是我们在实际项目中并未用准确率作为评估标准,为啥呢,因为我们的数据并不是正负样本一比一的(多分类问题中label也通常不是等比的),比如,当某个二分类问题中负样本占90%,如果…
xgboost原理
1.xgboost原理XGBoost 作为一种GBDT ,GBDT的原理很简单,所有弱分类器的结果相加等于预测值,然后下一个弱分类器去拟合误差函数的误差。GBDT 每个新模型的建立是在之前残差梯度方向减小传统GBDT在优…
机器学习公开课汇总
机器学习目前比较热,网上也散落着很多相关的公开课和学习资源,这里基于课程图谱的机器学习公开课标签做一个汇总整理,便于大家参考对比。 1、Coursera上斯坦福大学Andrew Ng教授的“机器学习公开课”: 机器学习入…