在机器学习领域中有非常多的问题需要求距离,常见的是向量距离的计算。比如判断A、B、C三种商品之间的相似性,可以先按照商品特征构建A、B、C的各自的向量,然后求向量间的距离,距离近就表示彼此相似度…
标签:机器学习
统计手机品牌的市场占有率
首先在kaggle上得到一组数据,https://www.kaggle.com/c/talkingdata-mobile-user-demographics,比赛是2016年开始,所以数据估计是2015左右的。 直接下载…
各种分类算法的优缺点
** 各种分类算法的优缺点 ** 朴素贝叶斯: 朴素贝叶斯的优点:对小规模的数据表现很好,适合多分类任务,适合增量式训练。算法比较简单,常用于文本分类。 分类准确度高,速度快。 朴素贝叶斯的缺点:对输入数据的表达形式很敏…
第五章:重抽样方法
重抽样方法 第五章:重抽样方法 5.1 交叉验证法(cross-validation) 5.1.1验证集方法(validation set approach) 5.1.2 留一交叉验证法(leave-one-out cr…
深入理解BERT Transformer ,不仅仅是注意力机制
作者: 龙心尘 时间:2019年3月 出处:https://blog.csdn.net/longxinchen_ml/article/details/89058309 大数据文摘与百度NLP联合出品 作者:Damien …
如何批量修改文件名、照片文件名
一、首先将所有照片文件放置在一个文件夹当中,然后同时按住键盘上的 Ctrl + A 组合快捷键选中所有照片文件,全部选中后,再按 F2 键进行批量重命名,并输入新名称。 二、输入完成后,按Enter回车键确认后,系统就会…
机器学习笔记笔记之三——文本类型处理-词袋法、TF-IDF理解
在面对文本型特征时,大致可以分为两种。 一是枚举类型,比如:男女,小学生初中生高中生大学生……这种类型下类别一般不会超过百种,那么就可以使用 哑编码(one-hot)来处理。 &n…
采用集成学习算法提高分类器的准确性
原文链接:http://www.wangxianfeng.name/2011/08/ensemble-method-to-improve-the-accuracy-of-the-classifier/ 传统的分类方法是在…
计算(分析\画出)给定数据的分布(概率密度函数)
目录 一、背景知识 1.累积分布函数 2.概率密度函数 3.核密度估计 二、画出一组数据的分布(概率密度函数) 1.数据的频率分布直方图 2.画出给定数据的频率分布直方图 3.画出给定数据的概率密度函数 做ML时,往往需…
R: 学习Gradient Boosting算法,提高预测模型准确率
引言 预测模型的准确率可以用2种方法来提高:要么进行特征设计,要么直接使用boosting算法。参加过许多数据科学大赛后,我发现许多人喜欢用boosting算法,因为它只需更少的时间就能产生相似的结果。 目前有许多boo…
李航统计学习方法EM算法三枚硬币例子Q函数推导
具体推导如下: 上面推导省略了第i次迭代的i的标记 当得到上式以后,可以参考 http://www.cnblogs.com/Determined22/p/5776791.html 来继续一下推导 当然,参考博客里也有关于…
AdaBoost基本原理与算法描述
一. 前言 最近在看集成学习方法,前面已经对XGBoost的原理与简单实践做了介绍,这次对AdaBoost算法做个学习笔记,来巩固自己所学的知识,同时也希望对需要帮助的人有所帮助。 关于集成学习主要有两大分支,一种是ba…