大数据GP_gp大数据-程序员宅基地

技术标签: 大数据  

目录

 

一、概念

二、主要解决

三、特征(4V)

四、应用场景

五、技术体系

1.数据采集

        Sqoop

        Flume

        Kafka

2.数据存储

        Hdfs

        HBase

        Redis

        Kafka

3.资源管理

        YARN

4.通用计算

        MapReduce

        Spark Core

5.数据分析

        Hive

        Spark

        Storm

        Spark Streaming

6.任务调度

        Azkaban

7.数据可视化

        Superset

8.分布式资源协调

        Zookeeper


一、概念

        传统数据处理应用软件不足以处理(存储计算)它们的大而复杂的数据集。

二、主要解决

        海量数据的存储运算问题。

三、特征(4V)

        容量大、种类多、速度快、价值高

        1.容量(volume):数据的大小决定所考虑的数据的价值和潜在的信息

        2.种类(variety):数据类型的多样性,包括:文本、图片、视频、音频
                结构化数据:可以用二维数据库表来抽象,抽取数据规律;
                半结构化数据:介于结构化和非结构化之前,主要指XML、HTML等;
                非结构化数据:不可用二维表抽象,如:图片、图像、音频、视频等

        3.速度(velocity):指获取数据的速度以及处理数据的速度
                数据的生产呈指数式爆炸式增长;
                处理数据要求的延时越来越低

        4.价值(value):合理运用大数据,一低成本创造高价值
                综合价值大,隐含价值大;
                单条数据记录无价值,无用数据多

四、应用场景

        待补充

五、技术体系

 Tips:内容变更实时更新

1.数据采集

        Sqoop

        Flume

        Kafka

2.数据存储

        Hdfs   Hadoop介绍_初心の GP的博客-程序员宅基地Apache Hadoop项目是一个提供高可靠,可扩展(横向)的分布式计算的开源软件平台。允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。Hadoop本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。产生背景1.Hadoop最早起源于Nutch。Nutch的目的是构建一个大型的全网搜索引擎(网页抓取、...https://blog.csdn.net/a318199328/article/details/121611085

Hdfs总结https://blog.csdn.net/a318199328/article/details/121809545

        HBase

        Redis

        Kafka

3.资源管理

        YARN

4.通用计算

        MapReduce

        Spark Core

5.数据分析

        Hive

        Spark

        Storm

        Spark Streaming

6.任务调度

        Azkaban

7.数据可视化

        Superset

8.分布式资源协调

        Zookeeper

Zookeeper介绍_初心の GP的博客-程序员宅基地icon-default.png?t=LA92https://blog.csdn.net/a318199328/article/details/121973475

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/a318199328/article/details/121607842

智能推荐

【教3妹学编程-算法题】检查按位或是否存在尾随零-程序员宅基地

文章浏览阅读473次,点赞10次,收藏9次。呜呜,烦死了, 脸上长了一个痘: 不要在意这些细节嘛,不用管它,过两天自然不就好了。:切,你不懂,影响这两天的心情哇。: 我看你是不急着找工作了啊, 工作那么辛苦,哪还有时间想这些啊。:说到找工作,我又要去刷题了。:我给你出一道关于美丽的题吧,让你的心情美丽美丽~

Python算法的几个案例(1)_迭代法求解平方根_计算前n个整数之和_time()计算执行时间_不使用循环计算前n个整数之和_python迭代法计算前n项和-程序员宅基地

文章浏览阅读786次。1、通过牛顿迭代法求解平方根链接: https://blog.csdn.net/XQC_KKK/article/details/123790167.2、计算前n个整数之和def sumOfN(n): theSum = 0 for i in range(1, n + 1): theSum += i return theSumprint(sumOfN(3))3、计算执行时间import timedef sumOfN2(n): start =_python迭代法计算前n项和

linux上传文件命令ftp put,Linux ftp 命令行中下载文件get与上传文件put的命令应用详解...-程序员宅基地

文章浏览阅读4.3k次。介绍:从本地以用户anok登录的机器192.168.0.16上通过ftp远程登录到192.168.0.6的ftp服务器上,登录用户名是peo。以下为使用该连接做的实验。查看远程ftp服务器上用户peo相应目录下的文件所使用的命令为:ls,登录到ftp后在ftp命令提示符下查看本地机器用户anok相应目录下文件的命令是:!ls。查询ftp命令可在提示符下输入:?,然后回车。1、从远程ftp服务器下载..._ftp put get

ADS1248驱动及相关总结_ads1248 读写-程序员宅基地

文章浏览阅读1.1w次,点赞4次,收藏59次。七七八八的,毕业设计弄的差不多了。以前遗留的问题也解决的差不多了(虽然有些粗糙)。现在,有点时间来总结毕业设计中的一些内容。 先说点感悟:对于毕业设计做的自动顶空系统来说,我感觉最恼人的要数这个ADS1248的驱动了。对于这个驱动,我他妈差不多整整弄了两个多月(请原谅我爆句粗口)。(当然,按照导师的说法,我是跨了两年)。在那差不多两个月里,我有很多次找到了以前做OJ题,调试8次改不出来的感觉(气..._ads1248 读写

macOS远程管理linux,MacOS远程控制工具-程序员宅基地

文章浏览阅读586次。远程软件让办公距离不在是问题,哪些mac远程控制工具呢??分享超给力的几款远程软件mac版给大家参考,一起来看看吧~AnyDesk for Mac一款免费远程控制程序,是为IT人员和移动用户提供安全可靠的远程桌面连接,无论是从办公室的另一层还是世界的另一端,在计算机之间压缩和传输图像数据的方式没有其他竞争产品能够做到。Parallels Client for Mac允许用户可以安全地从Window..._mac 远程访问 拔号工具

linux截取指定行数范围内的内容-程序员宅基地

文章浏览阅读2.8k次。需求:linux下对文件按照行数进行切割实现:sed -n '10,100p' logfile.txt > lognew.txt 摘自:http://www.xhuojia.com/zhuanlan/1891238847.html_linux获取指定行数之间的行

随便推点

Harbor仓库命令行登录报错Error response from daemon: Get /v2/: dial tcp xxx.xx.xx connect: connection refused_error response from daemon: get "": dial tcp : con-程序员宅基地

文章浏览阅读9k次。问题描述今天通过部门内部的devops平台跑流水线时,报错Error response from daemon: Gethttp://192.168.129.44:85/v2/: dial tcp 192.168.129.44:85: connect: connection refused刚开始以为是Harbor仓库挂了,于是通过UI界面去登录发现正常,随后通过命令行去机器上登录发现报错一样。产生的原因此种情况是因为Harbor仓库已满,或者部署该仓库的机器关键目录已满!解决方式查询该机器上与_error response from daemon: get "": dial tcp : connect: connection refused

电子时钟制作(瑞萨RA)(5)----定时器驱动数码管_瑞萨电子时钟-程序员宅基地

文章浏览阅读1w次。要想让每个数码管显示不同的数字,但是数码管必须依次地被持续驱动,数码管之间的刷新速度应该足够快,这样就看不出来数码管之间在闪烁。刷新频率可以设置为2ms刷新一次,这样人眼就看不出闪烁了。_瑞萨电子时钟

【OpenCV学习】(十三)机器学习_图像分类 机器学习 c++-程序员宅基地

文章浏览阅读6.9k次,点赞14次,收藏35次。【OpenCV学习】(十三)机器学习背景OpenCV中也提供了一些机器学习的方法,例如DNN;本篇将简单介绍一下机器学习的一些应用,对比传统和前沿的算法,能从其中看出优劣;一、人脸识别主要有以下两种实现方法:1、哈尔(Haar)级联法:专门解决人脸识别而推出的传统算法;实现步骤:创建Haar级联器;导入图片并将其灰度化;调用函数接口进行人脸识别;函数原型:detectMultiScale(img,scaleFactor,minNeighbors)scaleFactor:缩放尺_图像分类 机器学习 c++

Linux的curl可以通,但是Java的HttpClient却请求超时?_liunx下curl调用正常,java代码调用异常-程序员宅基地

文章浏览阅读1k次。在Java中使用HttpClient调用某个接口的时候,爆出连接超时异常但是在Linux中直接使用curl指令却可以调用通过,但也无法ping通。_liunx下curl调用正常,java代码调用异常

C#TextBox控件限定输入类型(二)(汉字,小数,日期)-程序员宅基地

文章浏览阅读175次。C#TextBox控件限定输入类型(二)(汉字,小数,日期)

C语言if语句 输入一个字符,判断是字母、数字、特殊字符_c语言if语句判断输入的字符是否为数字字符-程序员宅基地

文章浏览阅读3.8k次,点赞5次,收藏10次。C语言利用if语句 输入一个字符,判断是字母字符、数字字符、特殊字符_c语言if语句判断输入的字符是否为数字字符