网站集约化建设调研报告,校园学生网站开发,大数据营销心得体会,网店运营的基本流程分布式系统框架hadoop3入门 (qq.com)
Hadoop3作为分布式系统架构的重要基石#xff0c;为大规模数据存储与处理提供了强大支持
基本信息
hadoop#xff1a;一个存储和处理大数据的分布式系统框架
组成#xff1a; HDFS#xff08;数据存储#xff09;、MapReduce…分布式系统框架hadoop3入门 (qq.com)
Hadoop3作为分布式系统架构的重要基石为大规模数据存储与处理提供了强大支持
基本信息
hadoop一个存储和处理大数据的分布式系统框架
组成 HDFS数据存储、MapReduce计算、Yarn资源调度、Common辅助工具 HDFSHadoop Distributed File System一个分布式文件系统组成有NameNode存储文件的元数据类似目录索引DataNode存储文件块数据Secondary NameNode(NameNode元数据备份 YARNYet Another Resource Negotiator另一种资源协调者Hadoop 的资源管理器组成有ResourceManager管理集群资源、NodeManager管理单个节点资源、ApplicationMaster管理单个任务、Container封装任务需要的资源 MapReduce将计算过程分为两个阶段Map 和 ReduceMap 阶段并行处理输入数据Reduce 阶段对 Map 结果进行汇总 配置环境
三台虚机安装vmvare创建模板虚拟机h1centos7.5配置完虚机模板后克隆三个虚机h2-h4分别修改对应的ip地址和主机名
配置ip地址vm设置VMnet8的子网ip和网关、内部虚机修改主机名和hosts文件静态地址、window配置Adapter VMnet8 默认网关DNS服务器 安装远程终端工具XshellXftp传输工具 模板虚机配置
安装epel-release需更换为阿里源
关闭防火墙及开机自启、配置常用用户有root权限
/opt目录下创建文件夹module和software一个安装软件一个放软件包
卸载虚拟机自带的JDK 在h2安装JDK和hadoop
用XShell传输工具将安装包导入到opt目录下面的software文件夹下面
解压安装包到/opt/module目录下
配置环境变量
测试是否安装成功 将在h2安装的JDK和hadoop分发到h3h4
两个命令scpsecure copy安全拷贝、rsync远程同步工具前者可以在虚机之间复制文件后者增量复制效率更高
xsync集群分发脚本基于上述两个命令编写xsync编写集群分发脚本声明了全局环境变量的路径的bin目录下 SSH无密登录配置生成公钥和私钥,将公钥拷贝到要免密登录的目标机器上每台机器都要生成并拷贝到其他机器上 配置集群并启动
集群规划h2放NameNodeh3放ResourceManagerh4放SecondaryNameNode
配置-修改配置文件
核心配置文件core-site.xml指定NameNode的地址、指定hadoop数据的存储目录
HDFS配置文件hdfs-site.xml指定NameNodenn的地址 web端访问地址、SecondaryNameNode2nn web端访问地址
YARN配置文件yarn-site.xml指定MR走shuffle、指定ResourceManager的地址、环境变量的继承
MapReduce配置文件mapred-site.xml指定MapReduce程序运行在Yarn上
在集群上分发配置好的Hadoop配置文件xsync 启动
配置workers并同步
集群是第一次启动在h2节点格式化NameNode
h2机器上启动HDFSstart-dfs.sh
h3机器上启动YARNstart-yarn.sh
Web端查看HDFS的NameNode、YARN的ResourceManager
测试上传文件和执行wordcount程序 配置历史服务器和日志聚集
配置历史服务器
配置mapred-site.xml配置历史服务器端地址、历史服务器web端地址
分发配置并启动web查看 配置日志聚集
配置yarn-site.xml开启日志聚集功能、设置日志聚集服务器地址、设置日志保留时间为7天
分发配置关闭NodeManager 、ResourceManager和HistoryServer
启动NodeManager 、ResourceManage和HistoryServer
删除HDFS上已经存在的输出文件
执行WordCount程序
查看日志 参考资料
大海哥hadoop3.x
hadoopspark生态系统操作与实战指南