Word2Vec 基于 Gensim 的 Word2Vec 实践,从属于笔者的程序猿的数据科学与机器学习实战手册,代码参考gensim.ipynb。推荐前置阅读Python语法速览与机器学习开发环境搭建,Scikit-L…
分类:kafka
深入分析Kafka架构(三):消费者消费方式、三种分区分配策略、offset维护
本文目录 一、前言 二、消费者消费方式 三、分区分配策略 3.1、分配分区的前提条件 3.2、Range分配策略 3.3、RoundRobin分配策略 3.4、Sticky分配策略 四、offset维护 五、总结 一、前…
Kafka Logcleaner源码分析
1、Kafka中日志保留策略有2种,一种是按照时间/大小进行日志保留,还有一种是按照compact的策略进行保留。Logcleaner这个类就是按照compact策略来进行日志清理。简单来说,compact策略就是只保留…
Java主流流处理框架比较
分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算,但我们期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。 DAG是任务链的图形化表示,我们用它来描述流处…
【Kafka】kafka消费者的三种模式(最多/最少/恰好消费一次)&生产者幂等性
文章目录 概述 回顾ack配置 幂等性 kafka中幂等性存在的问题 参考 概述 at most once模式 基本思想是保证每一条消息commit成功之后,再进行消费处理; 设置自动提交为false,接收到消息之后,首…
在CentOS 7上安装配置Flume
简介 大数据时代的各种互联网应用产生大量的数据和日志,需要将这些日志收集起来,进行统一的分析处理,在应用系统和数据分析系统之间需要一座桥梁,进行通用的日志收集处理。Apache Flume 是一种分布式的、高可靠的、高可…
还记得那个被谷歌卖的波士顿动力么|数据工匠(6.6)
还记得那个被谷歌卖的波士顿动力么|数据工匠(6.6) Kafka在大数据生态系统中的价值 近几年, Apache Kafka的应用有了显著的增长。Kafka最新的客户包括Uber, Twitter, Netflix, L…
谈谈MongoDB适用领域
本篇文章写于2016年底,现在一年半时间过去了,MongoDB的发展显然越来越好。不仅MongoDB公司上市了,且股价彪了不少。另外,新出的版本增加了很多好用的特性,尤其是在最新的MongoDB 4.0版本已支持Repl…
卡夫卡的《城堡》
年少时,读卡夫卡的作品,读到一半,总觉得是在不知所云些什么,如今再读卡夫卡的《城堡》,多少明白了些什么。《城堡》是卡夫卡的未完成的作品,并且,在去世前,他特意嘱咐挚友——奥地利作家布罗德在他死后销毁他的所有作品。但是,在…
StructuredStreaming 写入Kafka
(接上文:zzzach:Spark 流式处理与Kafka) 写入Kafka: Spark2.3版本以上: 直接使用 .writeStream.format("kafka") Spark2.3版本一下:使用 .foreac…
大厂面试Kafka,一定会问到的幂等性
本文来自靳刚同学,如需转载请私聊授权 01 幂等性如此重要 Kafka作为分布式MQ,大量用于分布式系统中,如消息推送系统、业务平台系统(如结算平台),就拿结算来说,业务方作为上游把数据打到结算平台,如果一份数据被计算、…
别一说项目就spring,你真的懂spring么?
摘要 1、spring是什么? 2、spring有什么作用 3、spring、springMVC区别 4、spring框架的模块 1、spring是什么? spring是什么? 按照网上说的是个容器框架,是什么开发框架,…