为什么很多公司(这些公司既包括谷歌、领英、滴滴这样的大公司,也包括很多创业的中小公司)需要数据科学来解决营销问题? 拿计算机经销商为例,它们希望通过专注于更有可能达成的交易使销售团队更有效率,建立了内部模型…
标签:数据挖掘
不同的瑞士军刀:对比 Spark 和 MapReduce
Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终…
Spark 系列:『 Spark 』3. spark 编程模式
写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有…
python遗传算法(GA)DEAP-Overview学习摘要
DEAP-Overview DEAP是一个python遗传算法框架,这里是它的简介。DEAP documentation今天整理一下DEAP的概览,大体了解一下它的流程。初学,不严谨,仅作为自己的备忘学习笔记。 一. T…
CNDS博客文章爬取之tkinter
from tkinter import * import tkinter as tk import tkinter.messagebox as messagebox import tkinter.font import …
文本相似度-simhash
之前流量检测项目针对恶意请求文本做过聚类 , 其中用到计算文本的相识度,文本相似度曾经尝试过用simhash,虽然现在看来在项目中效果并不理想, 但是在文本去重上最用还是很不错的, 以下是对simhash的梳理 首先go…
AI-Challenger Baseline 细粒度用户评论情感分析 (0.70201) 后篇
承接上一篇,AI-Challenger Baseline 细粒度用户评论情感分析 (0.70201) 前篇 感谢大家的关注,第二篇文章我将详细介绍模型训练的过程,其中会适当融入我个人在训练时的一些经验吧,和大家分享讨论一…
数据挖掘(一) 初步认识
数据挖掘的方向 数据库技术角度统计学角度机器学习角度 一,数据挖掘的发展动力 1,数据量的增长 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。2,数据量繁多,缺乏寻…
经典算法-海量数据处理算法(top K问题)
举例 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 思路 首先把文件分开 针对每个文件hash遍历,统计每个词语的频率 使用堆进行遍历 把堆归并起来…
线性表的链式表示和实现
继上一篇博客讨论了线性表的顺序表示和实现今天我们就来讨论和实现一下线性表的链式存储。从上一片博客分析,我们知道线性表的顺序存储结构的特点是逻辑关系上相邻的两个元素在物理位置上也是相邻,因此可以随机存取表中任一元素。但是这…
pandas
一 、pandas 基本操作 (一)、查看基本数据 1、查看dataframe的前n行或尾n行 固定的是n=5 df = pandas.Dataframe(columns=[],index=[],data=[]) ## …
只会用 python 来写程序,太 low 了吧
写在前面 这是我在 2016.06.02 的讲座课件。 1. 讲稿 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查…