算法原理 K-means, K均值聚类算法 假设每个 cluster 存在一个中心点,该 cluster 内的所有数据项到这个中心点的欧式距离(勾股定理的扩展:各维度差的平方求和再开方)都小于到其他 cluster 中心…
分类:机器学习
朴素贝叶斯/SVM文本分类
import jieba import pandas as pd df_technology = pd.read_csv("./data/technology_news.csv", encoding='utf-8') d…
机器学习基本概念:batch_size、epoch、 iteration
batch_size 单次训练用的样本数,通常为2^N,如32、64、128… 相对于正常数据集,如果过小,训练数据就收敛困难;过大,虽然相对处理速度加快,但所需内存容量增加。 使用中需要根据计算机性能和训练…
机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法
在机器学习中的矩阵向量求导(一) 求导定义与求导布局中,我们讨论了向量矩阵求导的9种定义与求导布局的概念。今天我们就讨论下其中的标量对向量求导,标量对矩阵求导, 以及向量对向量求导这三种场景的基本求解思路。 …
20+ 精彩的Java 开发者博客
ProgramCreek 推荐了29个 Java 开发者的博客。 选择的标准如下: 高可读性的原创文章。 带有个人理解的创造性内容。 广告别太多。 Henrik Warne 关于编程的一些思考 Billy Yarosh …
50多种适合机器学习和预测应用的API,你的选择是?(2018年版本)
摘要: 本文盘点了2018年以来人脸和图像识别、文本分析、自然语言处理、情感分析、语言翻译、 机器学习和预测这几个领域常用的API,读者可以根据自己需求选择合适的API完成相应的任务。 对于做工程项目和搞科研的人来说,有…
【数据科学系统学习】机器学习算法 # 西瓜书学习记录 [6] 朴素贝叶斯实践
本篇内容为《机器学习实战》第 4 章 基于概率论的分类方法:朴素贝叶斯程序清单。所用代码为 python3。 朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输入数据的准备方式较为敏感。 适…
机器学习(八)—Apriori算法
摘要:本文对Apriori算法进行了简单介绍,并通过Python进行实现,进而结合UCI数据库中的肋形蘑菇数据集对算法进行验证。 “啤酒与尿布”的例子相信很多人都听说过吧,故事是这样的:在一家超市中,人们发现了一…
ApacheCN 数据科学/人工智能/机器学习知识树 2019.2
【主页】 apachecn.org 【Github】@ApacheCN 暂时下线: 社区 暂时下线: cwiki 知识库 自媒体平台 微博:@ApacheCN 知乎:@ApacheCN CSDN 简书 OSChina 博…
机器学习基本概念
1. 机器学习的定义 [Mitchell, 1997]对机器学习给出了一个形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进…
大数据分析,鲁班为祖师
1.《全栈数据之门》现货上架 经过一段时间的等待,目前已经可以在各大电商平台『现货』购买本书。本文后面也有京东、当当、天猫的购买链接! 本书适用 本书以数据分析领域最热的Python语言为主要线索,介绍数据分析库Nump…
机器学习笔记之性能评估指标
机器学习在不同的业务需求下,需要使用不同的评估指标对算法效果进行评估,这篇文章将对常见的评估指标进行总结。 Todo list: [ ] 分类任务 [x] Accuracy [ ] Precision [ ] Recal…