分类：数据挖掘

ML-梯度下降代码-线性回归为例

梯度下降代码线性回归为例 bgd 批量梯度下降 sbd 随机梯度下降 mbfd 小批量随机梯度下降 import numpy as np import random def gen_line_data(sample_nu…

_functions = { 'lit': 'Creates a :class:`Column` of literal value.', 'col': 'Returns a :class:`Column` based o…

欧式距离 import numpy as np import math a = np.random.rand(100) b = np.random.rand(100) math.sqrt(np.dot((a-b),(a-…

第五章数据处理与执行 5.3 RDD转换与DGA 数据处理模型 RDD 数据机构，可控制数据存储位置，提供操作 map flatmap filter可以对RDD进行转换。RDD还提供join groupBy red…

ELK数据分析工具学习 ElasticSearch参考手册，学习 http://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/index.html DS…

分类指标 wiki上根据混淆矩阵衍生的各类指标 1.混淆矩阵混淆矩阵混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等，这些精度指标从不同的…

环境： idea 2017 maven 4.0 hive 1.2.1.2.6 win10 创建maven项目 <?xml version="1.0" encoding="UTF-8"?> <projec…

拖拽式机器学习框架中科院开源图形化机器学习系统Easy ML 总结起来，Easy ML 的优势主要有三点：降低定义和执行机器学习任务的障碍 ; 共享和重用算法的实现，作业 DAG 和实验结果 ; 将独立算法和分布式算…

之前流量检测项目针对恶意请求文本做过聚类 , 其中用到计算文本的相识度,文本相似度曾经尝试过用simhash,虽然现在看来在项目中效果并不理想, 但是在文本去重上最用还是很不错的, 以下是对simhash的梳理首先go…

记录遇到过的Spark各种错误 1. Too many open files linux 中一切皆文件， Too many open files 有可能是file，也有可能是socket。在这里一般是file，在…

1.KNN介绍 k临近算法也叫Knn 是一种基于样本的模型,当K取值为1时算法原理是对于新的实例, 在训练集中找到距离最相近的K个样本,根据这K个样本的所属的类别,来归类这个新样本. 采取多数表决机制. 多数表决等…

使用场景 web请求日志对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度，对于数值型问题则用方差作为判断标准。方法: 针对请求源ip进行聚合, 对聚合结果进行相似度度量可以使用udaf 也可以使用udf …