标签：数据挖掘

Gartner：你的营销团队需要数据科学家吗？

为什么很多公司（这些公司既包括谷歌、领英、滴滴这样的大公司，也包括很多创业的中小公司）需要数据科学来解决营销问题？拿计算机经销商为例，它们希望通过专注于更有可能达成的交易使销售团队更有效率，建立了内部模型…

Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API，一些人认为这或许预示着 Hadoop MapReduce 的终…

写在前面本系列是综合了自己在学习spark过程中的理解记录＋对参考文章中的一些理解＋个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录，所以一切以能够理解为主，没有…

DEAP-Overview DEAP是一个python遗传算法框架，这里是它的简介。DEAP documentation今天整理一下DEAP的概览，大体了解一下它的流程。初学，不严谨，仅作为自己的备忘学习笔记。一. T…

from tkinter import * import tkinter as tk import tkinter.messagebox as messagebox import tkinter.font import …

之前流量检测项目针对恶意请求文本做过聚类 , 其中用到计算文本的相识度,文本相似度曾经尝试过用simhash,虽然现在看来在项目中效果并不理想, 但是在文本去重上最用还是很不错的, 以下是对simhash的梳理首先go…

承接上一篇，AI-Challenger Baseline 细粒度用户评论情感分析 (0.70201) 前篇感谢大家的关注，第二篇文章我将详细介绍模型训练的过程，其中会适当融入我个人在训练时的一些经验吧，和大家分享讨论一…

数据挖掘的方向数据库技术角度统计学角度机器学习角度一，数据挖掘的发展动力 1，数据量的增长自动数据收集工具和成熟的数据库技术使得大量的数据被收集，存储在数据库、数据仓库或其他信息库中以待分析。2，数据量繁多，缺乏寻…

举例有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。思路首先把文件分开针对每个文件hash遍历，统计每个词语的频率使用堆进行遍历把堆归并起来…

继上一篇博客讨论了线性表的顺序表示和实现今天我们就来讨论和实现一下线性表的链式存储。从上一片博客分析，我们知道线性表的顺序存储结构的特点是逻辑关系上相邻的两个元素在物理位置上也是相邻，因此可以随机存取表中任一元素。但是这…

一、pandas 基本操作（一）、查看基本数据 1、查看dataframe的前n行或尾n行固定的是n=5 df = pandas.Dataframe(columns=[],index=[],data=[]) ## …

写在前面这是我在 2016.06.02 的讲座课件。 1. 讲稿查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查…