10.3 kafka · linux-devops-suixiaofeng

[TOC] # 0.kafka工作原理图 ![](https://box.kancloud.cn/d98b5d0d1736a79635fa8e8bd4343139_3756x1910.png) # 1.安装kafka集群 [kakfa中文文档参考](http://kafka.apachecn.org/quickstart.html) http://kafka.apachecn.org/documentation.html ## 1.1 下载kafka ``` wget http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.1.0/kafka\_2.11-2.1.0.tgz >tar -xzf kafka_2.11-2.1.0.tgz >cd kafka_2.11-2.1.0 ``` ## 1.2 启动kafka ``` zookeeper参考: https://zookeeper.apache.org/doc/r3.4.13/zookeeperStarted.html zookeeper最好是集群形式集群配置文件zoo.cfg ~~~ tickTime=2000 initLimit=10 syncLimit=5 dataDir=/opt/zookeeper/zkdata dataLogDir=/opt/zookeeper/zkdatalog clientPort=12181 server.1=192.168.7.100:12888:13888 server.2=192.168.7.101:12888:13888 server.3=192.168.7.107:12888:13888 ~~~ 集群启动方式 ~~~ #进入到Zookeeper的bin目录下 cd /opt/zookeeper/zookeeper-3.4.6/bin #启动服务（3台都需要操作） ./zkServer.sh start ~~~ zookeeper启动 > bin/zookeeper-server-start.sh config/zookeeper.properties 启动kafka bin/kafka-server-start.sh config/server.properties #从后台启动Kafka集群（3台都需要启动） cd /opt/kafka/kafka_2.11-0.9.0.1//bin #进入到kafka的bin目录 ./kafka-server-start.sh -daemon ../config/server.properties ``` ## 1.3 kafka配置文件 ``` broker.id=0 #当前机器在集群中的唯一标识，和zookeeper的myid性质一样 port=19092 #当前kafka对外提供服务的端口默认是9092 host.name=192.168.7.100 #这个参数默认是关闭的，在0.8.1有个bug，DNS解析问题，失败率的问题。 num.network.threads=3 #这个是borker进行网络处理的线程数 num.io.threads=8 #这个是borker进行I/O处理的线程数 log.dirs=/opt/kafka/kafkalogs/ #消息存放的目录，这个目录可以配置为“，”逗号分割的表达式，上面的num.io.threads要大于这个目录的个数这个目录，如果配置多个目录，新创建的topic他把消息持久化的地方是，当前以逗号分割的目录中，那个分区数最少就放那一个 socket.send.buffer.bytes=102400 #发送缓冲区buffer大小，数据不是一下子就发送的，先回存储到缓冲区了到达一定的大小后在发送，能提高性能 socket.receive.buffer.bytes=102400 #kafka接收缓冲区大小，当数据到达一定大小后在序列化到磁盘 socket.request.max.bytes=104857600 #这个参数是向kafka请求消息或者向kafka发送消息的请请求的最大数，这个值不能超过java的堆栈大小 num.partitions=1 #默认的分区数，一个topic默认1个分区数 log.retention.hours=168 #默认消息的最大持久化时间，168小时，7天 message.max.byte=5242880 #消息保存的最大值5M default.replication.factor=2 #kafka保存消息的副本数，如果一个副本失效了，另一个还可以继续提供服务 replica.fetch.max.bytes=5242880 #取消息的最大直接数 log.segment.bytes=1073741824 #这个参数是：因为kafka的消息是以追加的形式落地到文件，当超过这个值的时候，kafka会新起一个文件 log.retention.check.interval.ms=300000 #每隔300000毫秒去检查上面配置的log失效时间（log.retention.hours=168 ），到目录查看是否有过期的消息如果有，删除 log.cleaner.enable=false #是否启用log压缩，一般不用启用，启用的话可以提高性能 zookeeper.connect=192.168.7.100:12181,192.168.7.101:12181,192.168.7.107:1218 #设置zookeeper的连接端口 ``` ## 1.4创建一个 topic ``` 让我们创建一个名为“test”的topic，它有一个分区和一个副本： > bin/zookeeper-server-start.sh config/zookeeper.properties bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test 查看这个topic > bin/kafka-topics.sh --list --zookeeper localhost:2181 test ``` ## 1.5 发送消息测试 ``` Kafka自带一个命令行客户端，它从文件或标准输入中获取输入，并将其作为message（消息）发送到Kafka集群。默认情况下，每行将作为单独的message发送。运行 producer，然后在控制台输入一些消息以发送到服务器。 > bin/kafka-console-producer.sh --broker-list localhost:9092 --topic testThis is a messageThis is another message ``` ## 1.6 启动一个 consumer ``` Kafka 还有一个命令行consumer（消费者），将消息转储到标准输出。 > bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginningThis is a messageThis is another message 如果您将上述命令在不同的终端中运行，那么现在就可以将消息输入到生产者终端中，并将它们在消费终端中显示出来。所有的命令行工具都有其他选项；运行不带任何参数的命令将显示更加详细的使用信息。 ```