分类：数据挖掘

大规模数据的去重与排序

home about guestbook resume categories tags subscribe 业务中可能需要对很大量级（比如100亿）的数据（几十G）进行排序或是去重等操作，在不使用Hadoop等工具的情况…

ZooKeeper服务命令启动ZK服务: sh bin/zkServer.sh start 查看ZK服务状态: sh bin/zkServer.sh status 停止ZK服务: sh bin/zkServer.sh …

记录遇到过的Spark各种错误 1. Too many open files linux 中一切皆文件， Too many open files 有可能是file，也有可能是socket。在这里一般是file，在…

Mac Python上安装Pillow报错： ValueError: jpeg is required unless explicitly disabled using 问题原因：这是因为在Pillow3.0以上的版本…

使用pymysql数据包连接使用Python连接MySQL数据库，使用的是 pymysql包。安装好pymysql包以后，通过下面的方式连接到导数据库，通过执行原始SQL语句，调取所需要的数据。通过pandas 将数…

Julia语言想在数据分析领域分一杯羹还需要做很多的事情，其中一个事情就算对缺失值的处理。在数据分析中，观测样本存在缺失值是非常常见的，如果一个分析工具缺少应对机制，那么这个工具用起来会磕磕绊绊。 R语言的缺失值处理 R…

import requests import re import os from multiprocessing import Pool headers = {'User-Agent': 'Mozilla/5.0 (Wi…

目前项目需要,将使用Spark进行数据的统计和分析, 现对pyspark进行详细记录声明, 由于spark发展日新月异, 在网上查看好多博客,都没说明spark版本, 做了不少弯路.本文记录的是Spark2.3.0版本…

ELK数据分析工具学习 ElasticSearch参考手册，学习 http://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/index.html DS…

import requests import re import os import threading headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W…

为什么很多公司（这些公司既包括谷歌、领英、滴滴这样的大公司，也包括很多创业的中小公司）需要数据科学来解决营销问题？拿计算机经销商为例，它们希望通过专注于更有可能达成的交易使销售团队更有效率，建立了内部模型…

Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API，一些人认为这或许预示着 Hadoop MapReduce 的终…