Pattern 2.6 Download pattern-2.6.zip Web mining module for Python, with tools for scraping, natural language p…
标签:数据挖掘
Julia快速入门(上)
译者按:Julia是一门非常年轻,但又极具生命力的程序语言,它既有脚本语言的灵活性和易用性,但又不失传统编译语言的一些常见用法和高效率,在很多机构给出的数据科学类程序语言性能评比中,Julia都名列前茅。在译者看来,Ju…
使用信息熵来确定文本相似度
使用场景 web请求日志 对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判断标准。 方法: 针对请求源ip进行聚合, 对聚合结果进行相似度度量 可以使用udaf 也可以使用udf …
大数据系统方面的经典论文
本文转自《大数据系统方面的经典论文》 说明:下面倾向选取已经在工业界广泛使用的系统论文,还有很多优秀论文没有在列表中,可以查阅近年来SOSP/OSDI/EuroSys/USENIX ATC/SIGMOD/VLDB/NIP…
ML-spark 使用ml步骤
title: spark 使用ml步骤 date: 2017-9-28 13:21:16 tags: [spark,机器学习] 使用大数据工具进行数据预测 import org.apache.spark.ml.Pipel…
中文文本分类对比(经典方法和CNN)
背景介绍 笔者实验室项目正好需要用到文本分类,作为NLP领域最经典的场景之一,文本分类积累了大量的技术实现方法,如果将是否使用深度学习技术作为标准来衡量,实现方法大致可以分成两类: 基于传统机器学习的文本分类 基于深度学…
浅谈Julia语言:Julia的面向对象
Julia语言将在今年8月6日发布1.0版本,我相信很多一直在观望的人也已经跃跃欲试了。这个系列的文章将结合我在开发Yao的过程中所实际感受到的一些问题和经验来谈谈Julia语言。因为并非PL背景,我不会从语言设计上去介…
Spark 系列:『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task
写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有…
通过MySQL驱动连接MySQL数据库
通过MySQL驱动连接MySQL数据库 MySQL官方提供了mysql-connector-python驱动 pip install mysql-connector 操作数据库 import mysql.connecto…
数据挖掘之产生模型VS判别模型
1.概述 产生式模型:无穷样本–>概率密度模型–>产生模型–>预测 判别式模型:有限样本–>判别函数–>预测模型–&g…
HDP-使用maven构建udf开发环境
环境: idea 2017 maven 4.0 hive 1.2.1.2.6 win10 创建maven项目 <?xml version="1.0" encoding="UTF-8"?> <projec…
Spark 系列:『 Spark 』4. spark 之 RDD
写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有…