记录遇到过的Spark各种错误 1. Too many open files linux 中 一切皆文件, Too many open files 有可能是file, 也有可能是socket。 在这里一般是file, 在…
标签:数据挖掘
ML-k近邻最近邻
1.KNN介绍 k临近算法 也叫Knn 是一种基于样本的模型,当K取值为1时 算法原理是 对于新的实例, 在训练集中找到距离最相近的K个样本,根据这K个样本的所属的类别,来归类这个新样本. 采取多数表决机制. 多数表决等…
使用信息熵来确定文本相似度
使用场景 web请求日志 对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判断标准。 方法: 针对请求源ip进行聚合, 对聚合结果进行相似度度量 可以使用udaf 也可以使用udf …
HDP-使用-mapreduce任务
以wordcount 为例子, 展示在hdp平台上使用mapreduce 1. 上传数据到HDFS 上传一个文本文件到hdfs 的input文件夹下 本文上传了一个http通信过程的文本文件 上传数据 2. 终端运行ha…
Spark-PySpark 广播文件
目前项目需要,将使用Spark进行数据的统计和分析, 现对pyspark进行详细记录 声明, 由于spark发展日新月异, 在网上查看好多博客,都没说明spark版本, 做了不少弯路.本文记录的是Spark2.3.0版本…
ML-决策树 随机森林学习
image 连续值处理 西瓜书的例子 Temperature: 40 48 60 72 80 90 PlayTennis: No No Yes Yes Yes No 决策树学习是一种逼近离散值目标函数的方法,在这种方法中…
Hadoop 权威指南阅读笔记
数据本地化优化: map任务存储在本地hadoop数据节点上 会得到最大的执行效率, 这也为什么分片大小应该与块大小相同 image image HDFS: Hadoop的分布式文件系统,为MapReduce提供数据源和…
python-分布式任务队列
celery 分布式任务队列工具 Celery是一个分布式任务队列工具,是一个异步的任务队列基于分布式消息传递 基本 Broker: 消息队列使用的中间人 有RabbiMQ redis mongodb 等一系列数据库 T…
笔记:新手的Hive指南
前言 算是对在滴滴实习的这段时间Hive的笔记吧,回学校也有段时间了,应该整理整理了,肯定不会巨细无遗,作为一种学习记录或者入门指南吧 基础 SQL基本语法 Python基础语法(HiveStreaming会用到) Ja…
ML-spark 使用ml步骤
title: spark 使用ml步骤 date: 2017-9-28 13:21:16 tags: [spark,机器学习] 使用大数据工具进行数据预测 import org.apache.spark.ml.Pipel…
hadoop全家桶系列1-zookeeper
ZooKeeper服务命令 启动ZK服务: sh bin/zkServer.sh start 查看ZK服务状态: sh bin/zkServer.sh status 停止ZK服务: sh bin/zkServer.sh …
[自翻译][机器学习]什么是机器学习技术?
本文首次发表于译言网,翻译自Technet.com,为[机器学习]系列文章之一。 发表地址:http://article.yeeyan.org/view/propiram/442033 这篇博客文章由微软研究院的杰出科学…