Flume 发表于 2020-03-31 | 分类于 Hadoop , Flume | | 阅读次数: Flume1. Flume日志采集 读数据 组件是 resource 缓存数据 channel 原因是读写速度的不一致,可以缓存在内存或本地文件,临时储存。看做一个数据的缓冲区(数据队列),它可以将事件暂存到内存中也可以持久化到本地磁盘上, 直到Sink处理完该事件 写数据 组件是 sink ... 阅读全文 »
Spark 发表于 2020-04-23 | 分类于 Spark | | 阅读次数: SparkVM options: -Dspark.master=local 还可以是 cluster,local[*], Standalone(只支持简单的固定资源分配策略) Spark Streaming 用来获取不同的源数据流DStream,为了初始化Spark Streaming就需要先创建一 ... 阅读全文 »
DataSkew 数据倾斜 发表于 2020-04-21 | 分类于 Hadoop , Hive | | 阅读次数: DataSkew 数据倾斜1. Hive 里的数据倾斜1.1 null值 空值尽量提前过滤,或者把无效值替换成随机字符串,比如 if(a is null or trim(a) = "" or trim(a) = "NULL", rand(1)+"&q ... 阅读全文 »
MapReduce 发表于 2020-04-22 | 分类于 Hadoop , MapReduce | | 阅读次数: MapReduce1.1 输入输出 首先都是 k, v 的形式 map 到 reduce 端是通过网络来传输,所以 k, v 都需要序列化和反序列化,Java 基本数据类型不支持序列化,所以需要用 MR 自己封装的类型,比如 LongWritable, Text, IntWritable 等等 re ... 阅读全文 »
Zookeeper 发表于 2020-04-21 | 分类于 Hadoop , Zookeeper | | 阅读次数: Zookeeper1. 知识点ZooKeeper 集群中包含 Leader、Follower 以及 Observer 三个角色: Leader:负责进行投票的发起和决议,更新系统状态,Leader 是由选举产生;Follower: 用于接受客户端请求并向客户端返回结果,在选主过程中参与投票;Obse ... 阅读全文 »