ID3 算法的核心是最大信息熵增益, 原则选择划分当前数据集的最好特征,信息熵是信息论里面的,是信息的度量方式,不确定度越大或者说越混乱,熵就越大,在建立决策树的过程中,根据特征属性划分数据,使得原本“混乱” 的数据的熵…
分类:机器学习
机器学习之初步概念
基本概念 机器学习的前提是数据,我们把数据的集合称为数据集’data set’,每条记录是一个样本(sample),每个样本有若干个属性(attribute)or特征(feature),对应的是其…
超详细!上线一个机器学习项目你需要哪些准备?
价值主张 机器学习应该以满足用户需求为目的进行设计 谁是预测系统的最终用户? 我们需要他们做些什么? 服务的目标是什么?目标的意义又是什么? 只有在回答这3W问题之后,你才能开始思考一些关于数据收集、特征工程、建模、评估…
机器学习算法总结
前言: 最近一段时间一直在忙秋招,在参加秋招的过程中顺便总结了一下机器学习中常用的一些算法。 1.降维(SVD,PCA) 降维是机器学习中很重要的一种思想。在机器学习中会遇到一些高维的数据集,而在高维数据集的其情形下会出…
学习笔记DL002:AI、机器学习、表示学习、深度学习,第一次大衰退
AI早期成就,相对朴素形式化环境,不要求世界知识。如IBM深蓝(Deep Blue)国际象棋系统,1997,击败世界冠军Garry Kasparov(Hsu,2002)。国际象棋,简单领域,64个位置,严格限制方式移动3…
机器学习:训练数据集、测试数据集
一、判断机器学习算法的性能 机器学习经过训练得到的模型,其意义在于真实环境中的使用; 将全部的原始数据当做训练集直接训练出模型,然后投入到真实环境中,这种做法是不恰当的,存在问题: 如果模型效果很差,没有机会通过实际调试…
机器学习算法经验总结
看到一篇很好的介绍机器学习算法的文章,转载过来,有这方面学习、研究的朋友可以看看。 算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力…
机器学习笔记(一)
机器学习笔记(一) 名词解释 ILP:Inductive Logic Programming的简称,即归纳逻辑程序设计。 发展历程 n 二十世纪五十年代初,出现机器学习的相关研究 n 二十世纪五十…
Mac、Linux批量创建、批量删除文件及文件夹
(1)批量创建文件夹 假设文件夹的名称名分别从dir_1 -dir_10 在shell命令中用{1..10},表示通配符: mkdir dir_{1..10} (2)批量创建文件 文件名分别从doc_1.txt -doc…
矩阵和向量的基本含义
矩阵(matrix)是二维数组,注意,一定是二维的 $$ \begin{bmatrix} 1 & 2 & 3 & 4 \\ 5 & 6 & 7 & 8 \\ j &…
国内首发 TensorFlow 中文版,助力中国人工智能的发展。
2015年11月9日,Google发布人工智能系统TensorFlow并宣布开源,同日,极客学院组织在线TensorFlow中文文档翻译。 一个月后,30章文档全部翻译校对完成,上线并提供电子书下载,该文档的上线为国内外…
Python遗传算法框架DEAP-Creating Types
DEAP是一个python遗传算法框架,这里是它的简介。DEAP documentation今天整理一下DEAP的概览,大体了解一下它的流程。初学,不严谨,仅作为自己的备忘学习笔记。 This tutorial show…