大数据零基础入门需要学习哪些知识点

当前位置：南昌千锋IT培训 > 技术问答 > 大数据零基础入门需要学习哪些知识点

大数据零基础入门需要学习哪些知识点

匿名提问者 2023-04-04 15:51:36

想要问下作为大数据零基础入门需要学习哪些知识点

我要提问

推荐答案

　　同学，您好！大数据零基础入门需要学习哪些知识点呢？需要学习硬盘文件系统、MapReduce、YARN、SparkStreaming、SparkSQL、Hive、Impala、数据库、ApacheKylin、Flume。

　　硬盘文件系统

　　HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)是Hadoop系统中数据存储管理的基础。它是一个高度容错的系统，能够检测和响应硬件故障，设计用于在低成本通用硬件上运行。 HDFS简化了文件的一致性模型，通过流式数据访问提供高吞吐量的应用数据访问功能，适用于大数据集的应用。

　　HDFS存储相关角色和功能：

　　Client：客户端，系统用户，调用HDFS API对文件进行操作；与NN交互获取文件元数据；与DN交互读写数据。

　　Namenode：元数据节点是系统的管理者。负责元数据管理；与客户端交互，提供元数据查询；分配数据存储节点等

　　Datanode：数据存储节点，负责数据块的存储和冗余备份；执行数据块的读写操作等。

　　MapReduce

　　MapReduce 是一种用于计算大量数据的计算模型。 Hadoop 的 MapReduce 实现与 Common 和 HDFS 一起构成了 Hadoop 早期发展的三个组成部分。 MapReduce将应用分为Map和Reduce两个步骤，其中Map对数据集上的独立元素进行指定操作，并以键值对的形式生成中间结果。 Reduce 将中间结果中同一个“键”的所有“值”进行减法，得到最终结果。 MapReduce等功能划分非常适用于由大量计算机组成的分布式并行环境中的数据处理。

　　YARN

　　YARN 是 Hadoop 的新资源管理系统。除了 HadoopMapReduce 之外，Hadoop 生态系统现在还有许多对存储在 HDFS 中的数据进行操作的应用程序。资源管理系统负责多个应用程序的多个作业可以同时运行。例如，在集群中，一些用户可能会提交 MapReduce 作业查询，而其他用户可能会提交 Spark 作业查询。资源管理的作用是确保两个计算框架都获得所需的资源，并且如果多个人同时提交查询，这些查询将以合理的方式得到处理。

　　SparkStreaming

　　SparkStreaming 是一个流处理系统，用于对实时数据流进行高吞吐和容错处理。它可以对各种数据源(如 Kdfka、Flume、Twitter、Zero 和 TCP 套接字)执行 Map、Reduce 和 Join 等复杂操作。操作并将结果保存到外部文件系统、数据库或应用于实时仪表板。

　　SparkSQL

　　SparkSQL 是 Hadoop 中另一个著名的 SQL 引擎。顾名思义，它使用Spark作为底层计算框架，Spark实际上是Scala编程语言的一个子集。 Spark的基本数据结构是RDD，一种分布在集群节点间的只读数据集合。传统的 MapReduce 框架在分布式编程中强制执行特定的线性数据流处理方法。 MapReduce程序从磁盘读取输入数据，将数据分解成键/值对，经过混洗、排序、合并等数据处理后生成输出，并将最终结果保存在磁盘上。 Map阶段和Reduce阶段的结果必须写入磁盘，大大降低了系统性能。也正是这个原因，MapReduce多用于执行批处理任务

　　Hive

　　Hive是一个基于Hadoop的数据仓库工具，可以将结构化数据文件映射成数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务执行。其优点是学习成本低，通过类SQL语句即可快速实现简单的MapReduce统计，无需开发专门的MapReduce应用，非常适用于数据仓库的统计分析。

　　Impala

　　Impala 是一个运行在 Hadoop 上的大规模并行处理 (MPP) 查询引擎，使用 HDFS 作为底层存储，提供对 Hadoop 集群数据的高性能、低延迟的 SQL 查询。对查询的快速响应支持交互式查询和分析查询的调优，这是传统的 SQL-on-Hadoop 技术难以完成的，用于处理长时间运行的批处理作业。

　　Impala 的一大亮点是它的执行速度。官方称在大多数情况下它可以在几秒或几分钟内返回查询结果，而同一个Hive查询通常需要几十分钟甚至几小时才能完成，所以Impala适合对Hadoop文件系统上的数据进行分析查询。 Impala 默认使用 Parquet 文件格式。这种列式存储对于数据仓库场景中的大型查询来说效率更高。

　　数据库

　　用于结构化数据的分布式存储系统。

　　HBase不同于一般的关系型数据库，它是一种适合非结构化数据存储的数据库。另一个区别是 HBase 的基于列的模式而不是基于行的模式。

　　HBase 是一个可扩展、高可靠、高性能、分布式和面向列的结构化数据动态模式数据库。与传统关系型数据库不同，HBase采用了BigTable的数据模型：增强的稀疏排序映射表(Key/Value)，其中的键由行关键字、列关键字和时间戳组成。 HBase 提供对大规模数据的随机、实时读写访问。同时，存储在HBase中的数据可以使用MapReduce进行处理，将数据存储与并行计算完美结合。

　　ApacheKylin

　　ApacheKylin™ 是一个开源分布式分析引擎，在 Hadoop 上提供 SQL 查询接口和多维分析(OLAP)能力以支持超大规模数据。它最初由 eBay Inc. 开发，并为开源社区做出了贡献。它可以在亚秒级内查询巨大的 Hive 表。

　　Flume

　　Flume是Cloudera提供的高可用、高可靠、分布式的海量日志采集、聚合、传输系统。 Flume支持在日志系统中自定义各种数据发送器进行数据采集；同时，Flume 提供了简单处理数据并写入各种数据接收方的能力(可定制)。

　　以上是大数据零基础入门需要学习的知识点，内容比较多，对于零基础同学来说，建议选择专业的培训机构进行系统学习。