home about guestbook resume categories tags subscribe 业务中可能需要对很大量级(比如100亿)的数据(几十G)进行排序或是去重等操作,在不使用Hadoop等工具的情况…
分类:数据挖掘
hadoop全家桶系列1-zookeeper
ZooKeeper服务命令 启动ZK服务: sh bin/zkServer.sh start 查看ZK服务状态: sh bin/zkServer.sh status 停止ZK服务: sh bin/zkServer.sh …
Spark-Spark任务中的常见错误
记录遇到过的Spark各种错误 1. Too many open files linux 中 一切皆文件, Too many open files 有可能是file, 也有可能是socket。 在这里一般是file, 在…
Mac安装Pillow模块
Mac Python上安装Pillow报错: ValueError: jpeg is required unless explicitly disabled using 问题原因: 这是因为在Pillow3.0以上的版本…
使用pymysql连接数据库
使用pymysql数据包连接 使用Python连接MySQL数据库,使用的是 pymysql包。安装好pymysql包以后,通过下面的方式连接到导数据库,通过执行原始SQL语句,调取所需要的数据。 通过pandas 将数…
Julia 缺失值的表示和处理
Julia语言想在数据分析领域分一杯羹还需要做很多的事情,其中一个事情就算对缺失值的处理。在数据分析中,观测样本存在缺失值是非常常见的,如果一个分析工具缺少应对机制,那么这个工具用起来会磕磕绊绊。 R语言的缺失值处理 R…
CNDS博客文章爬取之多进程
import requests import re import os from multiprocessing import Pool headers = {'User-Agent': 'Mozilla/5.0 (Wi…
Spark-PySpark 广播文件
目前项目需要,将使用Spark进行数据的统计和分析, 现对pyspark进行详细记录 声明, 由于spark发展日新月异, 在网上查看好多博客,都没说明spark版本, 做了不少弯路.本文记录的是Spark2.3.0版本…
ELK数据分析工具学习
ELK数据分析工具学习 ElasticSearch参考手册,学习 http://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/index.html DS…
CNDS博客爬取之多线程
import requests import re import os import threading headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W…
Gartner:你的营销团队需要数据科学家吗?
为什么很多公司(这些公司既包括谷歌、领英、滴滴这样的大公司,也包括很多创业的中小公司)需要数据科学来解决营销问题? 拿计算机经销商为例,它们希望通过专注于更有可能达成的交易使销售团队更有效率,建立了内部模型…
不同的瑞士军刀:对比 Spark 和 MapReduce
Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终…