分类：数据挖掘

机器学习--初识

机器学习是指，一门多领域交叉学科。专门研究计算机或其他软硬件设备怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习实现一套工具、方法或程序，从现实世界的海量数据里…

应用过机器学习进行数据挖掘的同学应该都知道特征选择对模型表现的重要性。本文基于网上经典特征选择相关文章整理出干货：常用方法分类以及调包侠该如何用sklearn快速上手，供大家参考。（一）预处理： 1 无量纲化： 1.1…

这个系列主要也是自己最近在研究大数据方向，所以边研究、开发也边整理相关的资料。网上的资料经常是碎片式的，如果要完整的看完可能需要同时看好几篇文章，所以我希望有兴趣的人能够更轻松和快速地学习相关的知识。我会尽可能用简单的方…

约定： import numpy as np import pandas as pd 一、CSV数据的导入和保存 csv数据一般格式为逗号分隔，可在excel中打开展示。示例 data1.csv： A,B,C,D 1,…

机器学习面试题-数据挖掘中如何判断关联规则有效性持续整理有温度、有难度、有热度的机器学习面试笔试题。机器学习面试笔试题 – Github 机器学习面试笔试题 – Gitbook 关联规则的三个…

_functions = { 'lit': 'Creates a :class:`Column` of literal value.', 'col': 'Returns a :class:`Column` based o…

In software, it’s said that all abstractions are leaky, and this is true for the Jupyter notebook as it …

一共 15 篇随笔，主要是为了记录数据分析过程中的一些小 demo，分享给其他需要的网友，更为了方便以后自己查看，15 篇随笔，每篇内容基本都是以一句说明加一段代码的方式，保持简单小巧，看起来也清晰，一共可以划分为三…

第五章数据处理与执行 5.3 RDD转换与DGA 数据处理模型 RDD 数据机构，可控制数据存储位置，提供操作 map flatmap filter可以对RDD进行转换。RDD还提供join groupBy red…

Pattern 2.6 Download pattern-2.6.zip Web mining module for Python, with tools for scraping, natural language p…

译者按：Julia是一门非常年轻，但又极具生命力的程序语言，它既有脚本语言的灵活性和易用性，但又不失传统编译语言的一些常见用法和高效率，在很多机构给出的数据科学类程序语言性能评比中，Julia都名列前茅。在译者看来，Ju…

使用场景 web请求日志对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度，对于数值型问题则用方差作为判断标准。方法: 针对请求源ip进行聚合, 对聚合结果进行相似度度量可以使用udaf 也可以使用udf …