- 电商用户行为分析大数据平台相关系列1-环境介绍
- 电商用户行为分析大数据平台相关系列2-HADOOP环境搭建
- 电商用户行为分析大数据平台相关系列3-HIVE安装
- 电商用户行为分析大数据平台相关系列4-ZOOKEEPER安装
- 电商用户行为分析大数据平台相关系列5-KAFKA安装
- 电商用户行为分析大数据平台相关系列6-flume安装
- 电商用户行为分析大数据平台相关系列7-spark安装
- 电商用户行为分析大数据平台相关系列8-数据分析流程
- 电商用户行为分析大数据平台相关系列9-用户访问session的模块介绍
- 电商用户行为分析大数据平台相关系列10-基础数据结构分析
数据结构分析主要是分析数据库表结构,其中包括Hive表以及Mysql表。课程实战中主要用了以下数据表:
– user_visit_action(Hive表):用户访问行为表
– user_info(Hive表):用户基本信息表
– task(Mysql表):用户提交任务记录表。
1、表结构详细说明:
1.1、user_visit_action
user_visit_action表,其实就是放网站或者是app,每天的点击流的数据。可以理解为,用户对网站/app每点击一下,就会代表在这个表里面的一条数据。
user_visit_action
date:日期,代表用户点击行为是哪一天发生的。
user_id:代表点击用户。
session_id:标识用户session。
page_id:点击某些商品/品类,或者搜索了某个关键词,然后进入某个页面,页面id。
action_time:点击行为的发生时间点
search_keyword:搜索关键词
click_category_id:点击品类id
click_product_id:点击商品id
order_product_ids:订单中包含商品
order_category_ids:订单中包含品类id。
pay_category_ids:某次支付对应品类id。
pay_product_ids:某次支付,对应商品id
1.2、user_info
ser_info表,实际上就是一张最普通的用户基础信息表;这张表里面,其实就是放置了网站/app所有的注册用户的信息。这里也是对用户信息表进行了一定程度的简化。比如略去了手机号等这种数据。因为项目里不需要使用到某些数据。那么我们就保留一些最重要的数据即可。
user_info
user_id:每一个用户的唯一标识,通常是自增长Long类型,BigInt类型。
username:登录名
name:昵称或者真实名称
age:年龄
professional:用户的职业
city:用户所在城市
1.3、task
task表,其实是用来保存平台的使用者通过J2EE系统提交的基于特定筛选参数的分析任务,的信息,就会通过J2EE系统保存到task表中来。之所以使用MySQL表,是因为J2EE系统是要实现快速的实时插入和查询的。
task
task_id:表的主键
task_name:任务名称
create_time:创建时间
start_time:开始运行时间
finish_time:结束运行时间
task_type:任务类型。在一套大数据平台中,肯定会有各种不同类型的统计分析任务,比如说用户访问session分析任务,页面单跳转化率统计任务;所以这个字段就标识了每个任务的类型
task_status:任务状态,新建、待运行、运行中,已结束,
task_param:任务参数,使用json保存用户提交任务时对应特殊参数。