阿鑫的博客ッ

发表于2022-08-06|Linux

vi —— 终端中的编辑器目标 vi 简介打开和新建文件三种工作模式常用命令分屏命令常用命令速查图 01. vi 简介1.1 学习 vi 的目的在工作中，要对服务器上的文件进行简单的修改，可以使用 ssh 远程登录到服务器上，并且使用 vi 进行快速的编辑即可常见需要修改的文件包括：源程序配置文件，例如 ssh 的配置文件 ~/.ssh/config 在没有图形界面的环境下，要编辑文件，vi 是最佳选择！每一个要使用 Linux 的程序员，都应该或多或少的学习一些 vi 的常用命令 1.2 vi 和 vim 在很多 Linux 发行版中，直接把 vi 做成 vim 的软连接 vi vi 是 Visual interface 的简称，是 Linux 中最经典的文本编辑器 vi 的核心设计思想 —— 让程序员的手指始终保持在键盘的核心区域，就能完成所有的编辑操作 vi 的特点：没有图形界面的功能强大的编辑器只能是编辑文本内容，不能对字体、段落进行排版不支持鼠标操作没有菜单只有命令 vi 编辑器在系统管理、服务器 ...

这样设置你的IDEA，经久耐看，用的爽到飞起，java开发利器秒变AK47

发表于2022-08-01|杂记

高效使用IDEA 熟练使用以下技巧后不用鼠标也可体验到丝滑的IDEA，编码速度有质的飞跃。蓝色为高频功能。搜索帮助 IDEA中提供了非常强大的搜索帮助，仅需要一些英文关键词就可以知道你要的帮助内容并给出快捷键 ctrl+shift+a 搜索帮助跳转&切换显示最近打开文件 ctrl+e显示最近打开的文件显示最近编辑的文件 ctrl+shift+e显示最近编辑的文件切换到上次编辑的位置 ctrl+shift+backspace切换到上次编辑的位置切换到上次浏览的位置 ctrl+alt+⬅/➡切换到上次浏览的位置左右切换选项卡 alt+⬅/➡左右切换选项卡编辑区与project区来回切换 alt+1 从编辑区切换到project区 esc或重按 alt+1 从project区切换到编辑区列出当前类方法集合 ctrl+F12 列出当前类方法集合列出当前类依赖关系 ctrl+shift+alt+u 列出方法调用层次 ctrl+h列出方法调用层次搜索&查找查找类 ctrl+n 查找项目中的类，查找 ...

08_Hadoop HA高可用

发表于2022-07-27|Hadoop

Hadoop HA 高可用1. HA 概述（1）所谓 HA（High Availablity），即高可用（7*24 小时不中断服务）。（2）实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA 机制：HDFS 的 HA 和 YARN 的 HA。（3）NameNode 主要在以下两个方面影响 HDFS 集群 ➢ NameNode 机器发生意外，如宕机，集群将无法使用，直到管理员重启 ➢ NameNode 机器需要升级，包括软件、硬件升级，此时集群也将无法使用 HDFS HA 功能通过配置多个 NameNodes(Active/Standby)实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将 NameNode 很快的切换到另外一台机器。 2. HDFS-HA 集群搭建当前 HDFS 集群的规划 hadoop102 hadoop103 hadoop104 NameNode Secondarynamenode DataNode DataNode ...

07_尚硅谷大数据技术之Hadoop（源码解析）

发表于2022-07-26|Hadoop

大数据技术之Hadoop（源码解析）第 0 章 RPC 通信原理解析

06_

发表于2022-07-25|Hadoop

05_尚硅谷大数据技术之Hadoop（Yarn）

发表于2022-07-24|Hadoop

大数据技术之Hadoop（Yarn）第1章 Yarn资源调度器思考： 1）如何管理集群资源？ 2）如何给任务合理分配资源？ Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。 1.1 Yarn 基础架构 YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。 ResourceManager 整个集群的老大 NodeManager 单节点的老大 ApplicationMaster 每一个作业的老大 Container 相应的容器 1.2 Yarn 工作机制（1）MR 程序提交到客户端所在的节点。（2）YarnRunner 向 ResourceManager 申请一个 Application。（3）RM 将该应用程序的资源路径返回给 YarnRunner。（4）该程序将运行所需资源提交到 HDFS 上。（5）程序资源提交完毕后，申请运 ...

04_尚硅谷大数据技术之Hadoop（MapReduce）

发表于2022-07-23|Hadoop

大数据技术之Hadoop（MapReduce）1. MapReduce 概述MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上。 1.1 MapReduce 优缺点优点 MapReduce 易于编程它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapReduce 编程变得非常流行。良好的扩展性当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。高容错性 MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由 H ...

03_尚硅谷大数据技术之Hadoop（HDFS）

发表于2022-07-22|Hadoop

大数据技术之Hadoop（HDFS）1. HDFS 概述1.1 HDFS 产出背景及定义1）HDFS 产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。 2）HDFS 定义 HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。 HDFS 的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。 1.2 HDFS 优缺点HDFS优点高容错数据自动保存多个副本。它通过增加副本的形式，提高容错性。某一个副本丢失以后，它可以自动恢复。适合处理大数据数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；文件规模：能够处理百万规模以上的文件数量，数量相当之大。可构建在廉价机器上， ...

02_尚硅谷大数据技术之Hadoop（入门）

发表于2022-07-21|Hadoop

大数据技术之Hadoop（入门）第 1 章 Hadoop 概述1.1 Hadoop 是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 1.2 Hadoop 发展历史（了解） Hadoop创始人Doug Cutting，为了实现与Google类似的全文搜索功能，他在Lucene框架基础上进行优化升级，查询引擎和索引引擎。 2001年年底Lucene成为Apache基金会的一个子项目。对于海量数据的场景，Lucene框架面对与Google同样的困难，存储海量数据困难，检索海量速度慢。学习和模仿Google解决这些问题的办法：微型版Nutch。可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文） GFS —>HDFS Map-Reduce —>MR BigTable —>HBase 2003-2004年，Google公开了部分GFS和M ...

01_尚硅谷大数据技术之大数据概论

发表于2022-07-20|Hadoop

尚硅谷大数据技术之大数据概论1. 大数据概念大数据（Big Data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决，海量数据的采集、存储和分析计算问题按顺序给出数据存储单位：bit、Byte、 KB、MB、GB、TB、PB、EB、ZB、YB、 BB、NB、DB。 1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M 1T = 1024G 1P = 1024T 2. 大数据特点（4V）1、Volume（大量）截至目前，人类生产的所有印刷材料的数据量是200PB，而历史上全人类总共说过的话的数据量大约是5EB。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近EB量级. 2、Velocity（高速）这是大数据区分于传统数据挖掘的最 ...