01. 基于规则的分类器rule-based classifier 0.1 相关概念 通过一系列规则“如果。。。就。。。”,来进行分类 规则:(condition)–> y condition:属性的合…
标签:数据挖掘
Hadoop技术内幕-架构篇-阅读笔记
主要用来理解yarn如何运行 1.4 源代码目录结构 bin 基本脚本 etc 配置信息 include 编程库头文件 lib 动态和静态库 libexec shell配置文件所在目录 sbin 各个服务启动和停止脚本 …
ML-文本相似度
局部敏感哈希(LSH) 文本相识度 计算文档文本相识度 主要方法 欧氏距离 编辑距离 余弦距离 Jaccard 距离 距离越近 相识度越高 负比 相识度公式 公式 文档的Shingling 为了计算 所以需要文档划分为小…
ML-梯度下降代码-线性回归为例
梯度下降代码线性回归为例 bgd 批量梯度下降 sbd 随机梯度下降 mbfd 小批量随机梯度下降 import numpy as np import random def gen_line_data(sample_nu…
Spark-PySpark sql各种内置函数
_functions = { 'lit': 'Creates a :class:`Column` of literal value.', 'col': 'Returns a :class:`Column` based o…
ML-感知器-线性回归-逻辑回归学习
欧式距离 import numpy as np import math a = np.random.rand(100) b = np.random.rand(100) math.sqrt(np.dot((a-b),(a-…
Spark-深入理解Spark 核心思想和源码分析阅读笔记
第五章 数据处理与执行 5.3 RDD转换与DGA 数据处理模型 RDD 数据机构, 可控制数据存储位置, 提供操作 map flatmap filter可以对RDD进行转换。RDD还提供join groupBy red…
ELK数据分析工具学习
ELK数据分析工具学习 ElasticSearch参考手册,学习 http://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/index.html DS…
不平衡类问题-分类的评估指标
分类指标 wiki上根据混淆矩阵衍生的各类指标 1.混淆矩阵 混淆矩阵 混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。 具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的…
HDP-使用maven构建udf开发环境
环境: idea 2017 maven 4.0 hive 1.2.1.2.6 win10 创建maven项目 <?xml version="1.0" encoding="UTF-8"?> <projec…
HDP-拖拽式机器学习框架
拖拽式机器学习框架 中科院开源图形化机器学习系统Easy ML 总结起来,Easy ML 的优势主要有三点: 降低定义和执行机器学习任务的障碍 ; 共享和重用算法的实现,作业 DAG 和实验结果 ; 将独立算法和分布式算…
文本相似度-simhash
之前流量检测项目针对恶意请求文本做过聚类 , 其中用到计算文本的相识度,文本相似度曾经尝试过用simhash,虽然现在看来在项目中效果并不理想, 但是在文本去重上最用还是很不错的, 以下是对simhash的梳理 首先go…