作者:前进 本文为原创文章,转载请注明作者及出处 1、推荐系统为何而来? 上世纪90年代,美国沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿…
标签:数据挖掘
机器学习实战-数据探索(异常值处理)
《机器学习实战-数据探索(1、变量识别;2、单变量分析;3、双变量分析)》 机器学习实战-数据探索(缺失值处理) 上面两篇文章介绍了数据探索的前四步,机器学习更多内容可以关注github项目:machine learni…
文本编辑利器Notepad++ 10个强大而又鲜为人知的特性
Notepad++ 顾名思义就是 windows 下 notepad 的增强版,它采用 C++ 编写,性能优秀,不仅小巧(完整安装包仅 3.8MB),…
漫谈大数据和数据仓库
0x00 前言 学的越深越能体会到自己的无知,理解的越深刻越不敢张口说自己是搞这一行的。 把之前写的数据仓库系列博客,汇总和整理成了一本更系统的小书《Data Warehouse in Action》。 0x01 大数据…
你了解你的数据吗(开篇)
0x00 前言 你了解你的数据吗? 前几天突然来了点灵感,想梳理一下自己对数据的理解,因此便有了这篇博客或者说这系列博客来聊聊数据。 数据从业者有很多,比如说数据开发工程师、数据仓库工程师、数据分析师、数据挖掘工程师、数…
App 可视化埋点技术实践精要
目前数据统计已经是一个产品常见的需求趋势,尤其在业务模式探索的前期,或者产品成熟期,埋点功能更是必不可少的功能,下面将介绍最简单的App和前端全埋点方案。后续我(最新没怎么写技术文章,后台被很多人diss了)也会从产品角…
ICLR-2018精品论文解析
ICLR 2018年的接收的论文已经release出来很久了,链接:chillee.github.io/OpenReviewE… 最近整理了其中一些论文的摘要和官方评价做了翻译整理和分类,涉及分布式训练、模型压缩、模型训…
数据挖掘——决策树巩固与 Python 实现
上个星期去崇州参加比赛,回来老师已经讲到了「分类」,那一节课学了决策树,现在继续课后巩固一下。 什么是决策树 概念 决策树(decision tree)是一种类似于流程图的树结构(可以是二叉树也可以不是),其中,每个内部…
你了解你的数据吗(化神篇):简易特征分析
0x00 前言 对于数据的使用,我们不管是需要了解数据质量、数据口径亦或是数据血缘,最终都将会走向对数据价值的探索上。因此,本篇尝试讨论数据挖掘中的特征分析。 本篇将会以一个具体的例子为主线,讨论一下特征分析的基本流程。…
R语言构建层次分析模型不看一下吗~
AHP (Analytic Hierarchy Process)层次分析法是美国运筹学家Saaty教授于二十世纪80年代提出的一种实用的多方案或多目标的决策方法。其主要特征是,它合理地将定性与定量的决策结合起来,按照思维…
闲鱼别名知识库数据挖掘与工程建设
摘要 一些与地理位置相关的业务(如租房业务),会基于地理兴趣点(以下简称POI)去构建,为该地点的用户提供更精细化的服务。 通常一个POI都会有一个官方名称,有的会有别名称呼,例如“北京大学”,又称为“ 北大”。这些PO…
如何做好文本关键词提取?从达观数据应用的三种算法说起
韩伟:达观数据数据挖掘工程师,负责达观数据文本方面的挖掘与应用。主要参与达观数据标签提取与文本分类系统的构建与实现,对深度学习,NLP数据挖掘领域有浓厚兴趣。 0 简介 在自然语言处理领域,处理海量的文本文件最关键的是要…