0%

Spark电商分析(离线和实时)

电商

一 电商离线分析

1.1 环境准备

jdk1.8.0_144
zookeeper-3.4.10
flume-1.7.0
kafka_2.11-0.11.0.2

1.2 数据准备

用户行为数据UserBehavior.csv
Web服务器日志apache.log
用户行为数据的数据结构
| 字段名 | 数据类型 | 说明 |
| :—-: | :—-: | :—-: |
| userId | Long | 加密后的用户ID |
| itemId | Long | 加密后的商品ID |
| categoryId | Int | 加密后的商品所属类别ID |
| behaviorId | String | 用户类型(PV buy cart fav) |
| timestamp | Long | 行为发生的时间戳 |

Web服务器日志的数据结构
| 字段名 | 数据类型 | 说明 |
| :—-: | :—-: | :—-: |
| ip | String | 访问的IP |
| userId | Long | 访问的User ID |
| eventTime | Long | 访问时间 |
| method | String | 访问方法GET/POST/PUT/DELETE |
| url | String | 访问的url |

二 电商实时分析

-------------本文结束感谢您的阅读-------------