标签：机器学习

泛化能力

1、泛化能力概念：在机器学习方法中，泛化能力通俗来讲就是指学习到的模型对未知数据的预测能力。在实际情况中，我们通常通过测试误差来评价学习方法的泛化能力。如果在不考虑数据量不足的情况下出现模型的泛化能力差，那么其原因基本…

前言以下代码的github链接为：Kaggle-Click-Through-Rate-Prediction 点击率(Click through rate)预估用来判断一条广告被用户点击的概率，对每次广告的点击做出预测，…

关联规则及其基础：表1：购物篮例子的分析关联分析：用于发现隐藏在大型数据集中的有意义的联系。所发现的联系可以用关联规则或频繁项集的形式表示。例如，从表1中可以提取出：{尿布} {啤酒}（该规则表明尿布…

一、独热编码（One-Hot Encoding）介绍 One-hot在数字电路中被用来表示一种特殊的位元组合，该字节里，仅容许单一位元为1，其他位元都必须为0。之所以称为one-hot就是因为只能有一个1（hot）。若情…

博客已转移至 https://lmhgithi.github.io/ 内容更全朴素贝叶斯NB（分类）（生成）优点稳定的分类效率对小规模数据表现很好，能处理多分类任务，适合增量式训练对缺失数据不太敏感，算法较简单…

决策树用途&组成构造算法 1. 特征选择 metric ID3：信息增益定义使用场景例子缺点 C4.5: 信息增益比定义连续数值特征的处理（转化为二分类寻找阈值的问题）解决过拟合问题：剪枝问题…

优点：简单有效重新训练的代价低(没有构建模型) 适合类域交叉样本 KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适…

这是最近在某呼收到的一个提问“k-means聚类算法的优缺点，以及有没有什么改进的方法？”下面就来谈谈自己的观点。优点：应用广泛，速度快，鲁棒性强；对于未知特性的数据集都可以先用K-means去试试。缺点：有倒是…

viewmode=contents” rel=”nofollow” target=”_blank”>寒小阳 && 龙心尘时间：2016年2月。出处：http://blog.csdn.net/ha…

一、原型聚类和层次聚类原型聚类也称基于原型的聚类(prototype-based clustering)，这类算法假设聚类结构能够通过一组原型刻画，先对原型进行初始化，然后对原型进行迭代更新求解。采用不同的原型表示、不…

针对特定的预测问题，只是拥有数据还不够，想要从纷繁复杂的数据关系中挖掘出可用于预测的规律或模式，还得运用恰当的分析方法。比如聚类分析，恰当地选择聚类算法，可以按维度…

关于点击率模型，你知道这三点就够了德川 2015年11月24日阅读 2091 快速评论说到广告，或者运营，关注的最多的就是点击率了。我们经常能听说某某科学家通过建立更好的点击率预测模…