本文转自《大数据系统方面的经典论文》 说明:下面倾向选取已经在工业界广泛使用的系统论文,还有很多优秀论文没有在列表中,可以查阅近年来SOSP/OSDI/EuroSys/USENIX ATC/SIGMOD/VLDB/NIP…
分类:数据挖掘
ML-spark 使用ml步骤
title: spark 使用ml步骤 date: 2017-9-28 13:21:16 tags: [spark,机器学习] 使用大数据工具进行数据预测 import org.apache.spark.ml.Pipel…
中文文本分类对比(经典方法和CNN)
背景介绍 笔者实验室项目正好需要用到文本分类,作为NLP领域最经典的场景之一,文本分类积累了大量的技术实现方法,如果将是否使用深度学习技术作为标准来衡量,实现方法大致可以分成两类: 基于传统机器学习的文本分类 基于深度学…
浅谈Julia语言:Julia的面向对象
Julia语言将在今年8月6日发布1.0版本,我相信很多一直在观望的人也已经跃跃欲试了。这个系列的文章将结合我在开发Yao的过程中所实际感受到的一些问题和经验来谈谈Julia语言。因为并非PL背景,我不会从语言设计上去介…
Spark 系列:『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task
写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有…
通过MySQL驱动连接MySQL数据库
通过MySQL驱动连接MySQL数据库 MySQL官方提供了mysql-connector-python驱动 pip install mysql-connector 操作数据库 import mysql.connecto…
数据挖掘之产生模型VS判别模型
1.概述 产生式模型:无穷样本–>概率密度模型–>产生模型–>预测 判别式模型:有限样本–>判别函数–>预测模型–&g…
HDP-使用maven构建udf开发环境
环境: idea 2017 maven 4.0 hive 1.2.1.2.6 win10 创建maven项目 <?xml version="1.0" encoding="UTF-8"?> <projec…
Spark 系列:『 Spark 』4. spark 之 RDD
写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有…
HDP-拖拽式机器学习框架
拖拽式机器学习框架 中科院开源图形化机器学习系统Easy ML 总结起来,Easy ML 的优势主要有三点: 降低定义和执行机器学习任务的障碍 ; 共享和重用算法的实现,作业 DAG 和实验结果 ; 将独立算法和分布式算…
Python数据挖掘05-json格式
在网页爬虫中经常需要传输和解析json数据,JSON的全称是”JavaScript Object Notation”,意思是JavaScript对象表示法,它是一种基于文本,独立于语言的轻量级数据交换格式。XML也是一种…
Spark 系列:『 Spark 』5. 这些年,你不能错过的 spark 学习资源
2016-03-10 最后更新时间: 写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的…