发展背景

传统数据处理架构

  • 结构化数据:数据库、数据仓库
  • 非结构化、半结构化数据:NoSQL数据库、并发程序

    大数据背景下存在的问题

  • 结构化数据::单机处理速度慢。MPP架构存在扩展性、热点问题
  • 非结构化、半结构化数据:NoSQL数据库只负责存储;程序处理时涉及到数据移动、速度慢

    大数据的特征

  • 数据规模巨大
  • 生成和处理速度极快
  • 数据类型多样
  • 价值巨大但密度较低

    处理场景

    离线处理场景

  • 数据仓库
  • 搜索与检索

    实时处理场景

  • 实时流处理

    hadoop介绍

Hadoop是个软件,是用于解决海量数据的存储和计算问题,适合离线计算

当我们在存储数据时,先记录数据的元信息,还要计算文件的存储位置

hadoop组成部分

  • HDFS:Hadoop Distributed File System
    • 分布式文件存储系统
  • MapReduce:数据的分析计算工具
    • 本质就是JAVA写的代码
    • 分片技术:把计算任务分散进行计算
  • Yarn:资源调度分配平台

zookeeper

去中心化设置:目的是为了搭建一个高可用的服务器集群,永不间断

zookeeper集群也要搭建集群,防止记录服务器宕机

安装JDK

1.安装jdk版本Java Downloads | Oracle

image-20240610143718431

使用xshell上传至虚拟机

2.将jdk安置在指定位置并解压

1
2
3
4
sudo mkdir /root/softwares
cd /root/softwares
ls -a //查看安装包
tar -zxvf [安装包名称] -C /usr/loacl

3.打开系统路径并配置

1
vim /etc/profile

输入:

1
2
3
4
5
# jdk

export JAVA_HOME=/usr/local/jdk-17.0.11

export PATH=$PATH:$JAVA_HOME/bin

保存并退出

1
source /etc/profile

使配置生效

4.检查:

1
java -version

安装Hadoop

跟jdk安装几乎一致,链接:Index of /hadoop/common/hadoop-3.4.0 (apache.org)

系统路径配置

1
2
3
4
5
# Hadoop

export HADOOP_HOME=/usr/local/hadoop-3.4.0

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin