预知 这篇文章能被您看到令我很开心,但有些话我必须提前告知您,以免浪费您的时间。 这仅仅是本人的学习笔记,非常粗浅和凌乱,不深入浅出,也不确定未来是否还会对其继续更新。此文仅适合您用来速览或消磨时间,内容大体上适合顺序阅…
标签:数据挖掘
ICLR-2018精品论文解析
ICLR 2018年的接收的论文已经release出来很久了,链接:chillee.github.io/OpenReviewE… 最近整理了其中一些论文的摘要和官方评价做了翻译整理和分类,涉及分布式训练、模型压缩、模型训…
机器学习--初识
机器学习是指,一门多领域交叉学科。专门研究计算机或其他软硬件设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 机器学习实现一套工具、方法或程序,从现实世界的海量数据里…
一名数据挖掘工程师给新人整理的入门资料
四年前我一次听说数据挖掘这个词,三年前我学习了数据挖掘理论知识,两年前我做了几个与数据挖掘有关的项目,一年前我成为一名数据挖掘工程师,今天我把数据挖掘入门资料整理了一下,希望能够对新人有帮助。 一、python 推荐粗读…
【学习摘录】机器学习特征选择
应用过机器学习进行数据挖掘的同学应该都知道特征选择对模型表现的重要性。本文基于网上经典特征选择相关文章整理出干货:常用方法分类以及调包侠该如何用sklearn快速上手,供大家参考。 (一)预处理: 1 无量纲化: 1.1…
【T-BABY 夜谈大数据】基于内容的推荐算法
这个系列主要也是自己最近在研究大数据方向,所以边研究、开发也边整理相关的资料。网上的资料经常是碎片式的,如果要完整的看完可能需要同时看好几篇文章,所以我希望有兴趣的人能够更轻松和快速地学习相关的知识。我会尽可能用简单的方…
python 数据分析之 csv/txt 数据的导入和保存
约定: import numpy as np import pandas as pd 一、CSV数据的导入和保存 csv数据一般格式为逗号分隔,可在excel中打开展示。 示例 data1.csv: A,B,C,D 1,…
机器学习面试题-数据挖掘中如何判断关联规则有效性
机器学习面试题-数据挖掘中如何判断关联规则有效性 持续整理有温度、有难度、有热度的机器学习面试笔试题。 机器学习面试笔试题 – Github 机器学习面试笔试题 – Gitbook 关联规则的三个…
Spark-PySpark sql各种内置函数
_functions = { 'lit': 'Creates a :class:`Column` of literal value.', 'col': 'Returns a :class:`Column` based o…
通过Jupyter Notebook 安装Python Packages
In software, it’s said that all abstractions are leaky, and this is true for the Jupyter notebook as it …
利用 Python 进行数据分析 基础系列随笔汇总
一共 15 篇随笔,主要是为了记录数据分析过程中的一些小 demo,分享给其他需要的网友,更为了方便以后自己查看,15 篇随笔,每篇内容基本都是以一句说明加一段代码的方式, 保持简单小巧,看起来也清晰 ,一共可以划分为三…
Spark-深入理解Spark 核心思想和源码分析阅读笔记
第五章 数据处理与执行 5.3 RDD转换与DGA 数据处理模型 RDD 数据机构, 可控制数据存储位置, 提供操作 map flatmap filter可以对RDD进行转换。RDD还提供join groupBy red…