Hadoop下载安装
发展背景
传统数据处理架构
- 结构化数据:数据库、数据仓库
- 非结构化、半结构化数据:NoSQL数据库、并发程序
大数据背景下存在的问题
- 结构化数据::单机处理速度慢。MPP架构存在扩展性、热点问题
- 非结构化、半结构化数据:NoSQL数据库只负责存储;程序处理时涉及到数据移动、速度慢
大数据的特征
- 数据规模巨大
- 生成和处理速度极快
- 数据类型多样
- 价值巨大但密度较低
处理场景
离线处理场景
- 数据仓库
- 搜索与检索
实时处理场景
- 实时流处理
hadoop介绍
Hadoop是个软件,是用于解决海量数据的存储和计算问题,适合离线计算
当我们在存储数据时,先记录数据的元信息,还要计算文件的存储位置
hadoop组成部分
- HDFS:Hadoop Distributed File System
- 分布式文件存储系统
- MapReduce:数据的分析计算工具
- 本质就是JAVA写的代码
- 分片技术:把计算任务分散进行计算
- Yarn:资源调度分配平台
zookeeper
去中心化设置:目的是为了搭建一个高可用的服务器集群,永不间断
zookeeper集群也要搭建集群,防止记录服务器宕机
安装JDK
1.安装jdk版本Java Downloads | Oracle
使用xshell上传至虚拟机
2.将jdk安置在指定位置并解压
1 | sudo mkdir /root/softwares |
3.打开系统路径并配置
1 | vim /etc/profile |
输入:
1 | # jdk |
保存并退出
1 | source /etc/profile |
使配置生效
4.检查:
1 | java -version |
安装Hadoop
跟jdk安装几乎一致,链接:Index of /hadoop/common/hadoop-3.4.0 (apache.org)
系统路径配置
1 | # Hadoop |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 小chen妙妙屋!
评论


