标签：spark

Kafka的ACK机制有三种，是哪三种

Kafka producer有三种ack机制初始化producer时在config中进行配置 0 意味着producer不等待broker同步完成的确认，继续发送下一条(批)信息提供…

场景：我们程序现在改成多线程了，我现在需要把临时表中的数据给插入到TABLE_M中，但这时候可能其他的线程也在插入，我就不能用之前我们的方案了（select max(oid) from Tuning.TABLE_M。。…

使用Saprk SQL 操作Hive的数据前提准备： 1、启动Hdfs，hive的数据存储在hdfs中; 2、启动hive -service metastore，元数据存储在远端，可以远程访问; 3、在s…

def main(args: Array[String]): Unit = { val hConf = HBaseConfiguration.create(); hConf.set("hbase.zookeeper.qu…

大部分程序员在自学的道路上不知道走了多少坑，这个视频那个网站搞得自己晕头转向。对我个人来说我平常在学习的过程中喜欢看一些教程式的博客。这些博客的特点： 1、总结知识点相对比较全面 2、一般来说讲解知识点通俗易懂 3、路线…

scala> val df1 = spark.createDataset(Seq(("aaa", 1, 2), ("bbb", 3, 4), ("ccc", 3, 5), ("bbb", 4, 6)) ).toDF…

Spark Streaming 支持多种实时输入源数据的读取，其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源，由于我们的业务场景没有涉及，在此将不会讨论。本篇文章主要着眼于我们目前的业…

1 public class TaskProcess 2 { 3 [DllImport("kernel32.dll", SetLastError = true)] 4 public static extern int S…

今天看到一篇讲得比较清晰的框架对比，这几个框架的选择对于初学分布式运算的人来说确实有点迷茫，相信看完这篇文章之后应该能有所收获。简介大数据是收集、整理、处理大容量数据集，并从…

方法返回数据类型参数说明 Series(一维) .Series() Series 实例s 创建一维数据类型Series data=None 要转化为Series的数据(也可…

参考http://www.powerxing.com/spark-quick-start-guide/#more-291 和 http://www.thebigdata.cn/Hadoop/29516.html &nbs…

引言上一篇文章TensorFlow Estimator 模型从训练到部署，介绍了使用了Estimator API模型的训练和部署流程，并通过Python客户端请求TensorFlow serving服务。这篇文章算是…