一、单选题(共80题) ( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。 A.数据清洗 B…
分类:数据挖掘
各种API+教程+练习
做一个搬运工,希望自己能努力学习,也希望大神们的东西能让更多的人看到 不断更新 更新日志:2017.10.13 新增了网络安全分类,整理了排版布局9.28 新增了seaborn的API链接,将一些杂七杂八的东西弄到了一篇…
零基础如何入门数据分析师?
大数据时代,数据为王。在这个精细化运营、降本增效的时代,用数据分析给决策者提供指导性意见几乎是每个企业的一致选择。截止目前,我国共计1400万数据分析人才缺口,市场规模预计将在2025年达到2000亿!数据分析与其说是一…
支持度和置信度
支持度(suport)是指在所有的出现集中,A和B同时出现的概率,用A和B同时出现的次数除以总出现集数;置信度(confidence)是指在A出现的情况下,B出现的概率,是条件概率 举个例子:商场里啤酒和尿布的支持度和置…
Spark DataFrame小试牛刀
三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还…
从安卓手机ROOT提取微信聊天记录到利用Python进行词云分析全过程
从安卓手机ROOT提取微信聊天记录到利用Python进行词云分析全过程 刚刚来到了2018年,正值女票生日将近。想想这一年来我俩的聊天记录也不少(导出后一看十个月的微信文字聊天记录将近8万条 ^-^),于是就有了将我们的…
如何自学成为“数据挖掘”的高手
对比我自己过去两年的学习和实践,我自己觉得不一定要全部看完入门,完全可以在某一个方向上面深入,包括一些数学知识,也是遇到了就去看,所以一些看上去很简单的算法和饮用,可能要花很长时间才能读通。可是,你第二次再遇到类似的算法…
为什么Spark将成为数据科学家的统一平台
翻译自:Why Apache Spark is a Crossover Hit for Data Scientists,有删减。 Spark是一个超有潜力的通用数据计算平台,无论是对统计科学家还是数据工程师。 数据科学是…
机器学习探索之路1:机器学习相关工具介绍与安装
0.前置信息 欢迎大家关注我们学术团队的blog网站:http://www.ibigdata.wang/ 以下内容基本为本人血泪史整理而得以anaconda库为基础的一系列python机器学习必备环境,目的是为了少让后人…
天池大数据比赛总结
一直想总结一下这次的比赛,拖啊拖。。。一直等到现在,趁着现在要找实习,好好总结一下。 比赛题目 比赛的官方网站在这,IJCAI SocInf’16。 这次比赛的题目是给定 2015 年 7 ~ 11 月份的用…
大数据Scala系列之样例类_Option_偏函数
在Scala中Option类型样例类用来表示可能存在或也可能不存在的值(Option的子类有Some和None)。Some包装了某个值,None表示没有值。 object OptionDemo { &nbs…
[读书笔记] MIT Optimization for Machine Learning/Chapter 2.4-2.6
终于可以直接输入公式了,希望sf越来越好。目前对公式的渲染速度有点慢,而且公式渲染也有问题 (Block) Coordinate Descent Alorithm 所谓的(B)CD,是指每一步迭代的时候,不是对所有的参数…