想学习大数据要掌握些什么知识?,学习大数据具体要学习什么两方面。
在学习大数据中具体学习的大概分为五类:
开发语言、大数据存储、分布式计算、数据仓库技术和机器学习。
学习的开发语言三种:java、python、scala.在大数据中语言重要程度为:java>scala>python.
大数据的分布式存储有:Hdfs、Hbas、Redis、Mongedb.其中Redis是分布式存储,其他三种是做大数据的分布离线存储,海量数据在Hdfs中存储。
大数据的分布式计算:Mapreducer、Sparkstreamming、Spark Core、Fink.
数据仓库技术:Hive、Sqoop、Flime.
机器学习:Mahout、Scikit leam、MLilb.
学习大数据还要掌握一点是,大数据的分布式计算(一):将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。
离线分布式计算:在计算开始前已知所有输入数据,输入数据不会产生变化,并且计算之后直接产生结果。
特点:
数据量巨大且保存时间长
在大量数据上进行复杂的批量运算
数据在计算之前已经完全到位,不会发生变化
能够方便地查询批量计算的结果。
大数据的分布式计算(二)
流式分布式计算
对天规模流 动数据在不断变化的运动过程中实时地进行计算,来-条数据就计算一下。
主要技术:
Spark Streamming
Storm
Flink
数据仓库:离线数仓数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、 相对稳定的(Non-Volatile) 、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
数仓理论基础;数仓架构: Lambda架 构和Kappa架构离线数仓技术: Hive,Hbase, Sqoop, Kylin, MR等
实时数仓的概念
实时数仓技术; Flume,Kafka, Flink等。
因此,这就告诉我们,想要学习大数据应该先把基础学习好,把大数据的体系理清楚。才能为更好地学习大数据做铺垫