本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充) 正则化方法:防止过拟合,提高泛化能力 在训练数…
标签:机器学习
使用卡尔曼滤波平滑时间序列,提高时序预测的准确率
在时间序列预测中,脏乱数据的存在会影响最终的预测结果。这是肯定的,尤其是在这个领域,因为时间依赖性在处理时间序列时起着至关重要的作用。 噪音或异常值必须按照特别的解决方案小心处理。在这种情况下,tsmoothie包可以帮…
Spark随机森林算法对数据分类(一)——计算准确率和召回率
1.召回率和正确率计算 对于一个 K K K元的分类结果,我们可以得到一个 K ∗ K K*K K∗K的混淆矩阵,得到的举证结果如下图所示。 从上图所示的结果中不同的元素表示的含义如下: m i j m_{ij} mij…
八种样本抽样方法介绍
介绍 你肯定很熟悉以下情况:你下载了一个比较大的数据集,并开始分析并建立你的机器学习模型。当加载数据集时,你的计算机会爆出”内存不足”错误。 即使是最优秀的人也会遇到这种事。这是我们在数据科学中面…
机器学习的三种方法
机器学习三种方法:监督学习(supervised learining)、无监督学习(unsupervised learning)和强化学习(reinforcement learning) 1.…
分类中解决类别不平衡问题
关注微信公众号【Microstrong】,我现在研究方向是机器学习、深度学习,分享我在学习过程中的读书笔记!一起来学习,一起来交流,一起来进步吧! 本文同步更新在我的微信公众号里面,公众号文章地址: https://mp…
matlab读.h5文件
之前用 python 给 nuswide 提取了 VGG19 特征,因为文件太大,超过 .mat 限制,存成 .h5,见 [1]。现在一个 matlab 程序要读,可以用 h5disp 查看 .h5 文件内容的结构(各个…
期望值最大化算法
一,最大似然估计与隐变量 期望值最大化算法是用来对包含隐变量的样本点的分布函数的参数估计方法。在参数估计中常常通过最大似然函数进行估计,由于隐变量的存在,不能直接求解这个最大似然函数,期望值最大化算法就是将这个最大似然函…
ROC曲线学习总结
文章目录 ROC曲线学习总结 1. ROC曲线(Receiver Operating Characteristic)的概念和绘制 2. 利用ROC曲线评价模型性能——AUC(Area Under Curve) 3. 利用…
从pandas中的一个单元格的字符串中提取字符串
以titanic数据集为例。 其中name列是字符串,现在想从其中提取title作为新的一列。 例如: # create new Title column df['Title'] = df['Name'].str.ext…
决策树(ID3,C4.5,CART算法具体过程)
1.介绍 1.1 定义 决策树模型是一种描述对实例进行分类的树形结构,决策树由结点和有向边组成。其中结点有两种类型:内部结点和叶节点。内部结点表示一个特征或属性,叶节点表示一个类。 在分类问题中,就表示基于…
【Windows】怎么查看CUDA版本?Conda命令安装和NVIDIA官网安装包安装的CUDA有何区别?nvcc -V和nvidia-smi获得的CUDA版本有何区别?如何指定CUDA版本?
一、如何查看CUDA版本? 1.1 查看runtime版本的CUDA (1)nvcc -V或nvcc –version (2)在CUDA的include文件夹中找到cuda.h文件 打开后搜索version。…