使用Spark计算PV、UV

2022年6月21日 265次阅读来源: 冥想者-定

日志字段格式：

id,ip,url,ref,cookie,time_stamp

把日志文件放到HDFS。仅取了1000行。

[plain]
view plain
copy

直接在Scala Shell中读取文件并计算PV。

[plain]
view plain
copy

scala> val textFile = sc.textFile(“hdfs://localhost:9000/user/root/input/1000_log”)
scala> val textRDD = textFile.map(_.split(“\t”)).filter(_.length == 6)
scala> val result = textRDD.map(w => ((new java.net.URL(w(2))).getHost,1)).reduceByKey(_ + _).map(item => item.swap).sortByKey(false).map(item => item.swap)
scala> result.saveAsTextFile(“hdfs://localhost:9000/user/root/out8.txt”)

从HDFS上取回结果：

[plain]
view plain
copy

查看结果：
[plain]
view plain
copy

如果是生成
.snappy压缩格式的文件，则可以按如下方法重定向到本地文本文件。

hadoop fs -text part-r-00001.snappy > filename.txt

下面对同一日志文件计算UV(Unique View)。

UV一般认为不同cookie的访问则算不同的独立用户。

[plain]
view plain
copy

package org.asiainfo
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
/**
* @author:zhaohf@asiainfo.com
* @date:2015年1月27日下午5:54:39
* @Description: TODO
*/
object UniqueViewCount {
def main(args: Array[String]): Unit = {
if(args.length < 4){
System.err.println(“Usage:<input_file> <url_column_index> <output_file>”)
System.exit(1)
}
val conf = new SparkConf().setAppName(“UniqueViewApp”)
val sc = new SparkContext(conf)
val url_index = args(1).toInt
val cookie_index = args(2).toInt
val textRDD = sc.textFile(args(0))
.map(_.split(“\t”))
.map(line => (new java.net.URL(line(url_index)).getHost) + “\t” + line(cookie_index))
.distinct()
.map(line => (line.split(“\t”)(0),1))
.reduceByKey(_ + _)
.map(item => item.swap)
.sortByKey(false)
.map(item => item.swap)
textRDD.saveAsTextFile(args(3))
}
}

sbt package 编译打包。

生成jar文件，提交spark应用。

[plain]
view plain
copy

spark-submit –class main.UniqueViewCount target/scala-2.11/spark_2.11-1.0.jar hdfs://localhost:9000/user/root/intput/1000_log 2 4 hdfs://localhost:9000/user/root/output

结果：

[plain]
view plain
copy

下面用shell来验证正确性：

先用python解析出url中的host:

[python]
view plain
copy

[plain]
view plain
copy

[plain]
view plain
copy

$ cat 1000_log_pre | sort | uniq | awk -F ‘\t’ ‘{print $1}’ | sort | uniq -c | sort -nr -k1| head
31 bbs.caoav.net
28 www.baidu.com
15 www.amazon.de
15 m.zhiyoula.com
14 www.360doc.com
11 m.sohu.com
11 mp.weixin.qq.com
10 www.kaixin001.com
7 www.zhiyoula.com

结果正确！

    原文作者：冥想者-定
    原文地址: https://blog.csdn.net/qiezikuaichuan/article/details/52017002
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。