发布了文章2021-11-21
HBase 是一种建立在 Hadoop 文件系统之上的分布式、可扩展、支持海量数据存储的 NoSQL 数据库。HBase 是 BigTable 的开源 Java 版本。是建立在 HDFS 之上,提供高可靠性、高性能、列存储、可伸缩、实时读写 NoSql 的数据库系统。
发布了文章2021-11-16
Kafka 是一个分布式的、多分区、多副本、多生产者、多消费者的基于发布/订阅模式的消息队列。目前 Kafka 已经定位为一个分布式流式处理平台,它可以实现对消息顺序的持久化,支持消息回溯和高性能读写,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性...
发布了文章2021-11-15
本文包含HDFS、Yarn和MapReduce三部分内容,总结了Hadoop的NameNode、2NN、DataNode原理,HDFS存储机制,MapReduce流程,数据倾斜,Yarn工作机制等相关知识要点。