不多说,直接上干货! 周志华:是南京大学的杰青,机器学习和数据挖掘方面国内的领军人物,其好几个…
标签:机器学习
[机器学习]numpy broadcast shape 机制
最近在做机器学习的时候,对未知对webshell检测,发现代码提示:ValueError: operands could not be broadcast together with shapes (1,3) (3766…
k近邻算法的优缺点
优点: 简单有效 重新训练的代价低(没有构建模型) 适合类域交叉样本 KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适…
朴素贝叶斯算法实现分类问题(三类)matlab代码
训练数据来源:http://archive.ics.uci.edu/ml/machine-learning-databases/balance-scale/balance-scale.data 数据简介 本训练数据共有6…
python 根据三点坐标计算夹角
最近在一些夹角计算的时候,根据三点坐标计算夹角,并封装为方法,方便以后调用。 def cal_ang(point_1, point_2, point_3): """ 根据三点坐标计算夹角 :param point_1: …
协同过滤推荐中利用SVD提高推荐的效果
1.什么是SVD :SVD指的是奇异值分解 SVD SVD的物理意义 2.利用Python实现SVD from numpy import linalg as la # Numpy有一个称为linalg的线性代数工具,其中…
为啥准确率不是个很好的评估标准?用作为评估标准为啥有局限性
准确率是分类问题中最直观最简单的评价标准,但是我们在实际项目中并未用准确率作为评估标准,为啥呢,因为我们的数据并不是正负样本一比一的(多分类问题中label也通常不是等比的),比如,当某个二分类问题中负样本占90%,如果…
xgboost原理
1.xgboost原理XGBoost 作为一种GBDT ,GBDT的原理很简单,所有弱分类器的结果相加等于预测值,然后下一个弱分类器去拟合误差函数的误差。GBDT 每个新模型的建立是在之前残差梯度方向减小传统GBDT在优…
机器学习公开课汇总
机器学习目前比较热,网上也散落着很多相关的公开课和学习资源,这里基于课程图谱的机器学习公开课标签做一个汇总整理,便于大家参考对比。 1、Coursera上斯坦福大学Andrew Ng教授的“机器学习公开课”: 机器学习入…
《机器学习实战》学习笔记
很久没写过博客了,一重开就给自己挖了这么一个大坑…… 最近一段时间看了《机器学习实战》这本书,感觉写得不错,认真看了看。关于这本书的书评及购买事宜请移步豆瓣、京东、亚马逊等网站,这里不多说。不过有一点,感觉这本书有个很好…
KNN 学习
很久之前写的一篇文章,最近有用到又重新研究了一下,顺手发上来。 打算开始学习机器学习,先看到的是KNN算法(K近邻算法)。首先是关于knn算法的原理的一段文字描述,对它有个最初的认识: 假设我们有一堆分好类的样本数据,分…
欧拉函数(Euler' totient function )
欧拉函数(Euler’ totient function ) Author: Jasper Yang School: Bupt 前言 gamma函数的求导会出现所谓的欧拉函数(phi),在一篇论文中我需要对好…