一、背景知识 1、什么是时序数据及分析目的? 时序数据是指时间序列数据。时间序列数据是同一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是【时期数】,也可以【时点数】。时…
标签:数据挖掘
线性回归分析用户留存率(引入哑变量)
线性回归分析用户留存率(引入哑变量) 业务背景:公司有一款工具类产品,核心功能是检索,下个月的KPI之一是提升用户留存率; 思考:如何提升,如何找影响留存率的指标?对于该模块而言,最敏捷的指标就是点击率,那么,我们下个月…
计算网页停留时间的平均时长
需求:现在有好多用户访问某个网页的停留时间,要计算平均时长。 求均值是不太合理的,因为有的时间特别的长,这样的时间应该是噪音数据,这样计算的均值感觉就偏大。 我感觉应该先找到事件的分布,然后根据分布计算它的期望。 首先把…
【时间序列】时序分析之移动平均-python实战
今天给大家讲解一下移动平均,其在时间序列分析中具有重要的作用。 1 简介 移动平均(moving average)主要应用于时间序列的分析,其能够去除不同时间步长的序列间的微小差异。 移动平均的目的是去除噪…
数据挖掘基础之数据库
最近出现的一种数据库结构是数据仓库(1.3.2 小节)。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库 技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP 是一种分析技术,具…
异常点/离羣点检测算法——LOF
2016年06月18日 15:18:21 阅读数:37915 局部异常因子算法-Local Outlier Factor(LOF) 在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和异常…
如何进行特征选择?
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能…
XGBoost原理
本文大量参考雪伦大佬的博客 以及wepon大佬的ppt,在此表示感谢! 目标函数 XGBoost目标函数的定义: L(ϕ)=∑il(y^i,yi)+∑kΩ(fk)whereΩ(f)=γT+12λ||w||2 由于上式包含…
N问GBDT(1-12答案)
N问GBDT – 知乎专栏对其的部分答案,能力有限,非常希望各位博友指正 1. 怎样设置单棵树的停止生长条件? 答:A. 节点分裂时的最小样本数 B. 最大深度 C. 最多叶子节点数 D. loss满足约束条…
Gradient Tree Boosting (GBM, GBRT, GBDT, MART)算法解析和基于XGBoost/Scikit-learn的实现
1. 概要 Gradient Tree Boosting (别名 GBM, GBRT, GBDT, MART)是一类很常用的集成学习算法,在KDD Cup, Kaggle组织的很多数据挖掘竞赛中多次表现出在分类和回归任务…
频繁模式挖掘(Frequent Pattern Mining)
频繁模式挖掘(Frequent Pattern Mining)是数据挖掘中很常用的一个种挖掘,今天给大家介绍的一种名叫Apriori的频繁模式挖掘…
kmeans 聚类算法
今天给大家介绍一个数据挖掘中的简单的聚类(Clustering)算法kmeans,什么是“聚类”?举个简单例子,比如说有一堆电商企业的用…