标签：机器学习

机器学习的5种距离度量方法

在机器学习领域中有非常多的问题需要求距离，常见的是向量距离的计算。比如判断A、B、C三种商品之间的相似性，可以先按照商品特征构建A、B、C的各自的向量，然后求向量间的距离，距离近就表示彼此相似度…

首先在kaggle上得到一组数据，https://www.kaggle.com/c/talkingdata-mobile-user-demographics，比赛是2016年开始，所以数据估计是2015左右的。直接下载…

** 各种分类算法的优缺点 ** 朴素贝叶斯：朴素贝叶斯的优点：对小规模的数据表现很好，适合多分类任务，适合增量式训练。算法比较简单，常用于文本分类。分类准确度高，速度快。朴素贝叶斯的缺点：对输入数据的表达形式很敏…

重抽样方法第五章：重抽样方法 5.1 交叉验证法(cross-validation) 5.1.1验证集方法(validation set approach) 5.1.2 留一交叉验证法（leave-one-out cr…

作者：龙心尘时间：2019年3月出处：https://blog.csdn.net/longxinchen_ml/article/details/89058309 大数据文摘与百度NLP联合出品作者：Damien …

一、首先将所有照片文件放置在一个文件夹当中，然后同时按住键盘上的 Ctrl + A 组合快捷键选中所有照片文件，全部选中后，再按 F2 键进行批量重命名，并输入新名称。二、输入完成后，按Enter回车键确认后，系统就会…

在面对文本型特征时，大致可以分为两种。一是枚举类型，比如：男女，小学生初中生高中生大学生……这种类型下类别一般不会超过百种，那么就可以使用哑编码（one-hot）来处理。 &n…

原文链接：http://www.wangxianfeng.name/2011/08/ensemble-method-to-improve-the-accuracy-of-the-classifier/ 传统的分类方法是在…

目录一、背景知识 1.累积分布函数 2.概率密度函数 3.核密度估计二、画出一组数据的分布（概率密度函数） 1.数据的频率分布直方图 2.画出给定数据的频率分布直方图 3.画出给定数据的概率密度函数做ML时，往往需…

引言预测模型的准确率可以用2种方法来提高：要么进行特征设计,要么直接使用boosting算法。参加过许多数据科学大赛后，我发现许多人喜欢用boosting算法，因为它只需更少的时间就能产生相似的结果。目前有许多boo…

具体推导如下：上面推导省略了第i次迭代的i的标记当得到上式以后，可以参考 http://www.cnblogs.com/Determined22/p/5776791.html 来继续一下推导当然，参考博客里也有关于…

一. 前言最近在看集成学习方法，前面已经对XGBoost的原理与简单实践做了介绍，这次对AdaBoost算法做个学习笔记，来巩固自己所学的知识，同时也希望对需要帮助的人有所帮助。关于集成学习主要有两大分支，一种是ba…