梯度下降代码线性回归为例 bgd 批量梯度下降 sbd 随机梯度下降 mbfd 小批量随机梯度下降 import numpy as np import random def gen_line_data(sample_nu…
分类:数据挖掘
Spark-PySpark sql各种内置函数
_functions = { 'lit': 'Creates a :class:`Column` of literal value.', 'col': 'Returns a :class:`Column` based o…
ML-感知器-线性回归-逻辑回归学习
欧式距离 import numpy as np import math a = np.random.rand(100) b = np.random.rand(100) math.sqrt(np.dot((a-b),(a-…
Spark-深入理解Spark 核心思想和源码分析阅读笔记
第五章 数据处理与执行 5.3 RDD转换与DGA 数据处理模型 RDD 数据机构, 可控制数据存储位置, 提供操作 map flatmap filter可以对RDD进行转换。RDD还提供join groupBy red…
ELK数据分析工具学习
ELK数据分析工具学习 ElasticSearch参考手册,学习 http://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/index.html DS…
不平衡类问题-分类的评估指标
分类指标 wiki上根据混淆矩阵衍生的各类指标 1.混淆矩阵 混淆矩阵 混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。 具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的…
HDP-使用maven构建udf开发环境
环境: idea 2017 maven 4.0 hive 1.2.1.2.6 win10 创建maven项目 <?xml version="1.0" encoding="UTF-8"?> <projec…
HDP-拖拽式机器学习框架
拖拽式机器学习框架 中科院开源图形化机器学习系统Easy ML 总结起来,Easy ML 的优势主要有三点: 降低定义和执行机器学习任务的障碍 ; 共享和重用算法的实现,作业 DAG 和实验结果 ; 将独立算法和分布式算…
文本相似度-simhash
之前流量检测项目针对恶意请求文本做过聚类 , 其中用到计算文本的相识度,文本相似度曾经尝试过用simhash,虽然现在看来在项目中效果并不理想, 但是在文本去重上最用还是很不错的, 以下是对simhash的梳理 首先go…
Spark-Spark任务中的常见错误
记录遇到过的Spark各种错误 1. Too many open files linux 中 一切皆文件, Too many open files 有可能是file, 也有可能是socket。 在这里一般是file, 在…
ML-k近邻最近邻
1.KNN介绍 k临近算法 也叫Knn 是一种基于样本的模型,当K取值为1时 算法原理是 对于新的实例, 在训练集中找到距离最相近的K个样本,根据这K个样本的所属的类别,来归类这个新样本. 采取多数表决机制. 多数表决等…
使用信息熵来确定文本相似度
使用场景 web请求日志 对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判断标准。 方法: 针对请求源ip进行聚合, 对聚合结果进行相似度度量 可以使用udaf 也可以使用udf …