目录 一、决策树的概述 1.1 决策树的概念 1.2 决策树分类举例 1.3 决策树的步骤 1.4 决策树的优缺点 二、决策树的构造 2.1 决策树的一般流程 2.2 信息增益 2.3 信息增益率 2…
分类:机器学习
蒙特卡罗法三种一般抽样方法(直接抽样法、接受-拒绝抽样法、重要性抽样法)
1. 概率分布采样 假如 p ( z ) p(z) p(z)是我们要采样的分布。若可以得到 p ( z ) p(z) p(z)的概率密度 p d f pdf pdf,对 p d f pdf pdf的求积分得到分布函数 c…
国家电网 计算机 《信息新技术》 整理
信息新技术概论 分布式处理基础 分布式数据库(DDB,Distributed Database)︰ 分布式文件系统(DFS,Distributed File System) 区块链(Blockchain): 物联网基础 …
决策树(一):分类决策树
决策树模型就是需要通过样本数据构建一棵树,数中除了叶子节点的每个节点都是一个数据特征的划分点,将待测数据的对应的特征和该节点上的划分特征做对比,然后将待测节点分到该节点的某个子节点上,然后再进行对比,直到叶子节点为止,然…
二分类问题输出一个节点还是两个节点
这两天在学pytorch的时候,看到是莫凡的pytorch教程,在二分类中用的是softmax,输出是[0,1],[1,0]这样的标签,而不是0,1标签,自己看了看torch的api函数改成了sigmoid激活函数可以用…
机器学习(决策树二)——简述 决策树
了解了信息熵,再看决策树,会很容易的。通过上篇博客,我们知道:信息熵被认为是一个系统有序程度的度量,一个系统越是有序,信息熵就越低,一个系统越是混乱,信息熵就越高。决策树的构造过程就是,如何划分,能让系统变得更加有序。 …
准确率,精确率,召回率和F1值
机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的 工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall…
中文文本中的关键字提取
关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告…
Python中三维变二维矩阵(用reshape)后各个维度的关系
一、 将一个5X20的二维矩阵变为一个5X10X2的三维数据。 import numpy as np X_test = np.arange(100).reshape(5,20) print(X_test) X_test …
特征处理之使数据分布逼近正态分布
前言 在机器学习和深度学习中,我们经常要对输入的数据做归一化或者在隐藏层使用Batch-Normlization(BN)操作,将数据范围缩放到[0,1]或者[-1, 1]之间,主要作用:可以加快神经网络训练速度,防止过拟…
将dataframe中的某一行提取出来放到另一个dataframe中
因为训练集和测试集的特征是放在一个文件中的,所以需要把训练集的特征提取出来。 最后才想到直接使用dataframe中的append方法,它的参数如下,可以传入dataframe,series,dict, Paramete…
信源编码和信道编码
一.信源编码和信道编码的发展历程 信源编码: 最原始的信院编码就是莫尔斯电码,另外还有ASCII码和电报码都是信源编码。但现代通信应用中常见的信源编码方式有:Huffman编码、算术编码、L-…