写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有…
分类:数据挖掘
python遗传算法(GA)DEAP-Overview学习摘要
DEAP-Overview DEAP是一个python遗传算法框架,这里是它的简介。DEAP documentation今天整理一下DEAP的概览,大体了解一下它的流程。初学,不严谨,仅作为自己的备忘学习笔记。 一. T…
CNDS博客文章爬取之tkinter
from tkinter import * import tkinter as tk import tkinter.messagebox as messagebox import tkinter.font import …
文本相似度-simhash
之前流量检测项目针对恶意请求文本做过聚类 , 其中用到计算文本的相识度,文本相似度曾经尝试过用simhash,虽然现在看来在项目中效果并不理想, 但是在文本去重上最用还是很不错的, 以下是对simhash的梳理 首先go…
AI-Challenger Baseline 细粒度用户评论情感分析 (0.70201) 后篇
承接上一篇,AI-Challenger Baseline 细粒度用户评论情感分析 (0.70201) 前篇 感谢大家的关注,第二篇文章我将详细介绍模型训练的过程,其中会适当融入我个人在训练时的一些经验吧,和大家分享讨论一…
数据挖掘(一) 初步认识
数据挖掘的方向 数据库技术角度统计学角度机器学习角度 一,数据挖掘的发展动力 1,数据量的增长 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。2,数据量繁多,缺乏寻…
经典算法-海量数据处理算法(top K问题)
举例 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 思路 首先把文件分开 针对每个文件hash遍历,统计每个词语的频率 使用堆进行遍历 把堆归并起来…
线性表的链式表示和实现
继上一篇博客讨论了线性表的顺序表示和实现今天我们就来讨论和实现一下线性表的链式存储。从上一片博客分析,我们知道线性表的顺序存储结构的特点是逻辑关系上相邻的两个元素在物理位置上也是相邻,因此可以随机存取表中任一元素。但是这…
pandas
一 、pandas 基本操作 (一)、查看基本数据 1、查看dataframe的前n行或尾n行 固定的是n=5 df = pandas.Dataframe(columns=[],index=[],data=[]) ## …
只会用 python 来写程序,太 low 了吧
写在前面 这是我在 2016.06.02 的讲座课件。 1. 讲稿 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查…
Julia——基本数据结构
预知 这篇文章能被您看到令我很开心,但有些话我必须提前告知您,以免浪费您的时间。 这仅仅是本人的学习笔记,非常粗浅和凌乱,不深入浅出,也不确定未来是否还会对其继续更新。此文仅适合您用来速览或消磨时间,内容大体上适合顺序阅…
ICLR-2018精品论文解析
ICLR 2018年的接收的论文已经release出来很久了,链接:chillee.github.io/OpenReviewE… 最近整理了其中一些论文的摘要和官方评价做了翻译整理和分类,涉及分布式训练、模型压缩、模型训…