Apache Kafka

时间：2024-03-08 19:39:41编辑：奇闻君

大数据Kafka是什么呢？

1.1　概述Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是：日志收集系统和消息系统。Kafka主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能。高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输。支持Kafka Server间的消息分区，及分布式消费，同时保证每个partition内的消息顺序传输。同时支持离线数据处理和实时数据处理。Scale out:支持在线水平扩展二、Kafka的优点2.1　解耦在项目启动之初来预测将来项目会碰到什么需求，是极其困难的。消息系统在处理过程中间插入了一个隐含的、基于数据的接口层，两边的处理过程都要实现这一接口。这允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。2.2　冗余（副本）有些情况下，处理数据的过程会失败。除非数据被持久化，否则将造成丢失。消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。2.3　扩展性因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。不需要改变代码、不需要调节参数。扩展就像调大电力按钮一样简单。2.4　灵活性&峰值处理能力在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见；如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。2.5　可恢复性系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。2.6　顺序保证在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。Kafka保证一个Partition内的消息的有序性。2.7　缓冲在任何重要的系统中，都会有需要不同的处理时间的元素。例如，加载一张图片比应用过滤器花费更少的时间。消息队列通过一个缓冲层来帮助任务最高效率的执行———写入队列的处理会尽可能的快速。该缓冲有助于控制和优化数据流经过系统的速度。2.8　异步通信很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。.2　消息系统介绍一个消息系统负责将数据从一个应用传递到另外一个应用，应用只需关注于数据，无需关注数据在两个或多个应用间是如何传递的。分布式消息传递基于可靠的消息队列，在客户端应用和消息系统之间异步传递消息。有两种主要的消息传递模式：点对点传递模式、发布-订阅模式。大部分的消息系统选用发布-订阅模式。Kafka就是一种发布-订阅模式。1.3　点对点消息传递模式1.4　发布-订阅消息传递模式在发布-订阅消息系统中，消息被持久化到一个topic中。与点对点消息系统不同的是，消费者可以订阅一个或多个topic，消费者可以消费该topic中所有的数据，同一条数据可以被多个消费者消费，数据被消费后不会立马删除。在发布-订阅消息系统中，消息的生产者称为发布者，消费者称为订阅者。该模式的示例图如下：

kafka apache 使用在什么场合

1、Messaging
对于一些常规的消息系统,kafka是个不错的选择;partitons/replication和容错,可以使kafka具有良好的扩展性和性能优势.不过到目前为止,我们应该很清楚认识到,kafka并没有提供JMS中的"事务性""消息传输担保(消息确认机制)""消息分组"等企业级特性;kafka只能使用作为"常规"的消息系统,在一定程度上,尚未确保消息的发送与接收绝对可靠(比如,消息重发,消息发送丢失等)

2、Websit activity tracking
kafka可以作为"网站活性跟踪"的最佳工具;可以将网页/用户操作等信息发送到kafka中.并实时监控,或者离线统计分析等

3、Log Aggregation
kafka的特性决定它非常适合作为"日志收集中心";application可以将操作日志"批量""异步"的发送到kafka集群中,而不是保存在本地或者DB中;kafka可以批量提交消息/压缩消息等,这对producer端而言,几乎感觉不到性能的开支.此时consumer端可以使hadoop等其他系统化的存储和分析系统.

kafka技术内幕与apache kafka源码剖析看哪一本好,为什么?

Jafka/KafkaKafka是Apache下的一个子项目，是一个高性能跨语言分布式Publish/Subscribe消息队列系统，而Jafka是在Kafka之上孵化而来的，即Kafka的一个升级版。具有以下特性：快速持久化，可以在O(1)的系统开销下进行消息持久化；高吞吐，在一台普通的服务器上既可以达到10W/s的吞吐速率；完全的分布式系统，Broker、Producer、Consumer都原生自动支持分布式，自动实现复杂均衡；支持Hadoop数据并行加载，对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka通过Hadoop的并行加载机制来统一了在线和离线的消息处理，这一点也是本课题所研究系统所看重的。Apache Kafka相对于ActiveMQ是一个非常轻量级的消息系统，除了性能非常好之外，还是一个工作良好的分布式系统。其他一些队列列表HornetQ、Apache Qpid、Sparrow、Starling、Kestrel、Beanstalkd、Amazon SQS就不再一一分析。

百度云与百度网盘的区别

百度云和百度网盘的区别如下：
一、含义的区别
1、百度云是百度提供的公有云平台，拥有“云计算+大数据+人工智能“三位一体的云计算战略。
2、百度网盘是百度推出的一项云存储服务，用户将可以将自己的文件上传到网盘上，并可跨终端随时随地查看和分享。
二、特点不同
1、百度云：是为客户提供云计算产品的同时，用百度自身的服务品质为客户的事业发展保驾护航。
2、百度网盘：百度网盘支持常规格式的图片、音频、视频、文档文件的在线预览，无需下载文件到本地即可轻松查看文件。【摘要】
百度网盘和百度云的区别是什么啊？【提问】
百度云和百度网盘的区别如下：
一、含义的区别
1、百度云是百度提供的公有云平台，拥有“云计算+大数据+人工智能“三位一体的云计算战略。
2、百度网盘是百度推出的一项云存储服务，用户将可以将自己的文件上传到网盘上，并可跨终端随时随地查看和分享。
二、特点不同
1、百度云：是为客户提供云计算产品的同时，用百度自身的服务品质为客户的事业发展保驾护航。
2、百度网盘：百度网盘支持常规格式的图片、音频、视频、文档文件的在线预览，无需下载文件到本地即可轻松查看文件。【回答】
三、提供的产品、服务上的区别
1、百度云：提供40余款高性能云计算产品，天像、天算、天工三大智能平台，分别提供智能多媒体、智能大数据、智能物联网服务。
2、百度网盘：提供的产品包括网盘、人脸识别、通讯录、个人主页、短信、群组功能、文章、记事本、相册、手机找回并提供多元化数据存储服务。【回答】
哪个可以存放cad图纸？【提问】
百度网盘【回答】
百度网盘怎么收费？【提问】
百度网盘怎么收费？【提问】
而目前百度网盘提供了两种会员收费标准，普通会员10元/月，按年购买为96元/年;超级会员30元/月，连续包月 25 元，按年购买为298元/年。而这些会员的开通市场也只提供三种选择：包月、包季度、包年。【回答】

百度云和百度网盘和百度云管家都有什么区别啊！！！

百度云：
百度云（Baidu Cloud）是百度推出的一项云存储服务，首次注册即有机会获得2T的空间，已覆盖主流PC和手机操作系统，包含Web版、Windows版、Mac版、Android版、iphone版和Windows Phone版，用户将可以轻松将自己的文件上传到网盘上，并可跨终端随时随地查看和分享。
通过百度云,您可以将照片、文档、音乐、通讯录数据在各类设备中使用,在众多朋友圈里分享与交流。

百度网盘：
百度网盘是百度云的一项服务，提供文件的网络备份、同步和分享服务。
空间很大、速度较快、安全稳固，支持教育网加速，支持手机端。

百度管家：
百度云管家是百度公司推出的一款云服务产品，支持便捷地查看、上传、下载百度云端各类数据。
通过百度云管家存入的文件，不会占用本地空间，占用的是百度网盘的空间。

关系：
1、百度网盘是百度云的一项服务功能；
2、百度管家是百度网盘上传、下载大文件的客户端，能更便捷的管理文件。

rabbitmq与kafka到底用哪个好

Kafka和RabbitMq一样是通用意图消息代理，他们都是以分布式部署为目的。但是他们对消息语义模型的定义的假设是非常不同的。我对"AMQP 更成熟"这个论点是持怀疑态度的。让我们用事实说话来看看用什么解决方案来解决你的问题。
a) 以下场景你比较适合使用Kafka。你有大量的事件(10万以上/秒)、你需要以分区的，顺序的，至少传递成功一次到混杂了在线和打包消费的消费者、你希望能重读消息、你能接受目前是有限的节点级别高可用或则说你并不介意通过论坛/IRC工具得到还在幼儿阶段的软件的支持。
b) 以下场景你比较适合使用RabbitMQ。你有较少的事件（2万以上/秒）并且需要通过复杂的路由逻辑去找到消费者、你希望消息传递是可靠的、你并不关心消息传递的顺序、你需要现在就支持集群-节点级别的高可用或则说你需要7*24小时的付费支持（当然也可以通过论坛/IRC工具）。

为什么说rabbitmq 比kafka可靠

　　Kafka和RabbitMq一样是通用意图消息代理，他们都是以分布式部署为目的。但是他们对消息语义模型的定义的假设是非常不同的。我对"AMQP 更成熟"这个论点是持怀疑态度的。让我们用事实说话来看看用什么解决方案来解决你的问题。
　　a) 以下场景你比较适合使用Kafka。你有大量的事件(10万以上/秒)、你需要以分区的，顺序的，至少传递成功一次到混杂了在线和打包消费的消费者、你希望能重读消息、你能接受目前是有限的节点级别高可用或则说你并不介意通过论坛/IRC工具得到还在幼儿阶段的软件的支持。
　　b) 以下场景你比较适合使用RabbitMQ。你有较少的事件（2万以上/秒）并且需要通过复杂的路由逻辑去找到消费者、你希望消息传递是可靠的、你并不关心消息传递的顺序、你需要现在就支持集群-节点级别的高可用或则说你需要7*24小时的付费支持（当然也可以通过论坛/IRC工具）。
　　

上一篇：联想z5 pro

下一篇：大片没必要