1-大数据导论、Apache Zookeeper

hadoop离线day01--大数据导论、Apache Zookeeper


今日课程学习目标

理解大数据基本概念
重点掌握数据分析基本步骤、分布式集群概念
理解zookeeper功能与作用
掌握zookeeper架构原理
学会搭建zookeeper集群
掌握shell客户端操作zk
理解zookeeper典型应用

今日课程内容大纲

#大数据导论
	数据与数据分析  
	数据分析作用和方向(商业领域)
		离线分析
		实时分析
		ML机器学习
	数据分析的基本步骤 (重要)
    大数据时代
    	海量数据处理场景 (重要)
    		如何存储?   分布式存储
    		如何处理?   分布式计算
    	大数据5V特征
        大数据应用
    分布式、集群

#Apache Zookeeper (重要)
	zk概念介绍  分布式协调服务软件
	zk是分布式小文件存储系统
	zk特性:全局数据一致性
	zk角色 主从架构
	zk集群的搭建
	zk的数据模型
	zk的操作
		shell command
	zk watcher监听机制
    zk典型应用场景

知识点01:大数据导论--数据、数据分析


知识点02:大数据导论--数据分析的作用、方向

各行各业可能都需要开展数据分析,我们重点关注商业领域。也就是说企业为什么需要数据分析。

a、原因分析--对应历史数据

b、现状分析--对应当下数据

c、预测分析--结合数据预测未来


知识点03:大数据导论--数据分析基本流程步骤(重要)

hadoop离线day01--大数据导论、Apache Zookeeper_image.png

数据分析的步骤和流程不仅对我们开展分析提供支撑,同时也对我们去沟通阐述数据分析项目的流程有非常大的支撑。面试时:介绍一下你最近做的项目?如何介绍?介绍什么?


知识点04:大数据导论--大数据时代(概念、5V特征)

思考:数据为什么会爆炸?

知识点05:大数据导论--大数据应用


知识点06:大数据导论--分布式技术

分布式、集群


知识点07:Apache zookeeper--概述、定位、功能

提示:学习任何一款软件框架,我们都需要首先搞清楚几个问题:

​ 这个软件是什么?(定位问题)这个软件能用来干什么?这个软件怎么用?

​ 这个软件有什么特性和优缺点?


知识点08:Apache zookeeper--全局数据一致性

![image-20210921153429099](/img/user/czc知识库/计算机/Hadoop技术栈/课程资料笔记/源/hadoop离线day01--大数据导论、Apache Zookeeper/1、笔记、总结/hadoop离线day01--大数据导论、Apache Zookeeper.assets/image-20210921153429099.png)

zk集群中每个服务器保存一份相同的数据副本,客户端无论连接到哪个服务器,展示的数据都是一致的,这是最重要的特征。

读|非事务型操作:读可以随便读
写|事务型操作:需要leader来排序处理数据


知识点09:Apache zookeeper--集群的架构与角色职责

zk是标准的主从架构,只不过为了扩大集群的读写能力,同时又不增加选举复杂度,又提供了观察者角色。


知识点10:Apache zookeeper--集群搭建--配置文件详解

主机名、ip、hosts、防火墙、免密登录、时间同步、jdk、配置文件、集群启动关闭


知识点11:Apache zookeeper--集群启停、进程查看、日志查看


知识点12:Apache zookeeper--数据模型、znode类型(4种)

![image-20210921154019474](/img/user/czc知识库/计算机/Hadoop技术栈/课程资料笔记/源/hadoop离线day01--大数据导论、Apache Zookeeper/1、笔记、总结/hadoop离线day01--大数据导论、Apache Zookeeper.assets/image-20210921154019474.png)

永久节点(PERSISTENCE)
临时节点(EPHEMERAL)
永久节点序列化(PERSISTENCE_SEQUENTIAL)
临时节点序列化(EPHEMERAL_SEQUENTIAL)

知识点13:Apache zookeeper--shell命令行操作(CRUD)


知识点14:Apache zookeeper--监听机制watch


知识点15:Apache zookeeper--典型应用场景


今日作业

#所说的理解指的是 能够使用自己的话术并且不失专业的角度把概念说出来

#大数据导论
数据分析基本步骤
离线、实时、机器学习
分布式、集群
	主从架构
	主备架构
	单点故障  故障转移  负载均衡  容错  伸缩性  动态扩容

#apache zookeeper
	理解并自己阐述:
		协调服务
		分布式小文件存储系统  
		全局数据一致性  
		角色职责 
		数据模型(znode类型 临时 序列化)
		监听机制
	搭建zk集群
    	shell操作
    结合zk特性阐述理解zk软件的应用场景	
    	通用配置中心
    	集群选举
    	锁
#预习Apache Hadoop