1、泛化能力 概念:在机器学习方法中,泛化能力通俗来讲就是指学习到的模型对未知数据的预测能力。在实际情况中,我们通常通过测试误差来评价学习方法的泛化能力。如果在不考虑数据量不足的情况下出现模型的泛化能力差,那么其原因基本…
标签:机器学习
Kaggle Click-Through Rate Prediction 点击率预测/CTR预估
前言 以下代码的github链接为:Kaggle-Click-Through-Rate-Prediction 点击率(Click through rate)预估用来判断一条广告被用户点击的概率,对每次广告的点击做出预测,…
机器学习之关联规则(支持度和置信度、Apriori算法)
关联规则及其基础: 表1:购物篮例子的分析 关联分析:用于发现隐藏在大型数据集中的有意义的联系。所发现的联系可以用关联规则或频繁项集的形式表示。 例如,从表1中可以提取出:{尿布} {啤酒}(该规则表明尿布…
独热编码(One-Hot Encoding)介绍、代码实现应用与优缺点
一、独热编码(One-Hot Encoding)介绍 One-hot在数字电路中被用来表示一种特殊的位元组合,该字节里,仅容许单一位元为1,其他位元都必须为0。之所以称为one-hot就是因为只能有一个1(hot)。若情…
常见机器学习算法(模型)优缺点比较
博客已转移至 https://lmhgithi.github.io/ 内容更全 朴素贝叶斯NB(分类)(生成) 优点 稳定的分类效率 对小规模数据表现很好,能处理多分类任务,适合增量式训练 对缺失数据不太敏感,算法较简单…
决策树的三种常见算法
决策树 用途&组成 构造算法 1. 特征选择 metric ID3:信息增益 定义 使用场景 例子 缺点 C4.5: 信息增益比 定义 连续数值特征的处理(转化为二分类寻找阈值的问题) 解决过拟合问题:剪枝 问题…
k近邻算法的优缺点
优点: 简单有效 重新训练的代价低(没有构建模型) 适合类域交叉样本 KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适…
k-means聚类算法的优缺点,以及有没有什么改进的方法?
这是最近在某呼收到的一个提问“k-means聚类算法的优缺点,以及有没有什么改进的方法?”下面就来谈谈自己的观点。 优点: 应用广泛,速度快,鲁棒性强;对于未知特性的数据集都可以先用K-means去试试。 缺点: 有倒是…
贝叶斯方法优缺点
viewmode=contents” rel=”nofollow” target=”_blank”>寒小阳 && 龙心尘 时间:2016年2月。 出处:http://blog.csdn.net/ha…
聚类算法之层次聚类
一、原型聚类和层次聚类 原型聚类也称基于原型的聚类(prototype-based clustering),这类算法假设聚类结构能够通过一组原型刻画,先对原型进行初始化,然后对原型进行迭代更新求解。采用不同的原型表示、不…
时间序列预测分析方法(一):相关分析
针对特定的预测问题,只是拥有数据还不够,想要从纷繁复杂的数据关系中挖掘出可用于预测的规律或模式,还得运用恰当的分析方法。比如聚类分析,恰当地选择聚类算法,可以按维度…
关于点击率模型,你知道这三点就够了 点击率预估的几个经典模型简介
关于点击率模型,你知道这三点就够了 德川 2015年11月24日 阅读 2091 快速评论 说到广告,或者运营,关注的最多的就是点击率了。我们经常能听说某某科学家通过建立更好的点击率预测模…