标签：数据挖掘

Spark-Spark任务中的常见错误

记录遇到过的Spark各种错误 1. Too many open files linux 中一切皆文件， Too many open files 有可能是file，也有可能是socket。在这里一般是file，在…

1.KNN介绍 k临近算法也叫Knn 是一种基于样本的模型,当K取值为1时算法原理是对于新的实例, 在训练集中找到距离最相近的K个样本,根据这K个样本的所属的类别,来归类这个新样本. 采取多数表决机制. 多数表决等…

使用场景 web请求日志对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度，对于数值型问题则用方差作为判断标准。方法: 针对请求源ip进行聚合, 对聚合结果进行相似度度量可以使用udaf 也可以使用udf …

以wordcount 为例子，展示在hdp平台上使用mapreduce 1. 上传数据到HDFS 上传一个文本文件到hdfs 的input文件夹下本文上传了一个http通信过程的文本文件上传数据 2. 终端运行ha…

目前项目需要,将使用Spark进行数据的统计和分析, 现对pyspark进行详细记录声明, 由于spark发展日新月异, 在网上查看好多博客,都没说明spark版本, 做了不少弯路.本文记录的是Spark2.3.0版本…

image 连续值处理西瓜书的例子 Temperature: 40 48 60 72 80 90 PlayTennis: No No Yes Yes Yes No 决策树学习是一种逼近离散值目标函数的方法，在这种方法中…

数据本地化优化： map任务存储在本地hadoop数据节点上会得到最大的执行效率，这也为什么分片大小应该与块大小相同 image image HDFS: Hadoop的分布式文件系统，为MapReduce提供数据源和…

celery 分布式任务队列工具 Celery是一个分布式任务队列工具，是一个异步的任务队列基于分布式消息传递基本 Broker: 消息队列使用的中间人有RabbiMQ redis mongodb 等一系列数据库 T…

前言算是对在滴滴实习的这段时间Hive的笔记吧，回学校也有段时间了，应该整理整理了，肯定不会巨细无遗，作为一种学习记录或者入门指南吧基础 SQL基本语法 Python基础语法(HiveStreaming会用到) Ja…

title: spark 使用ml步骤 date: 2017-9-28 13:21:16 tags: [spark,机器学习] 使用大数据工具进行数据预测 import org.apache.spark.ml.Pipel…

ZooKeeper服务命令启动ZK服务: sh bin/zkServer.sh start 查看ZK服务状态: sh bin/zkServer.sh status 停止ZK服务: sh bin/zkServer.sh …

本文首次发表于译言网，翻译自Technet.com，为[机器学习]系列文章之一。发表地址：http://article.yeeyan.org/view/propiram/442033 这篇博客文章由微软研究院的杰出科学…