大数据优化方案----HDFS小文件优化方法_dfs针对大数据文件来设计,处理小文件效率低。阅读『file-based data structur-程序员宅基地

技术标签: 优化方法  # 【大数据】面试题  hdfs  hadoop  大数据  

版权声明:本文为CSDN博主「北京小辉」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/silentwolfyh/article/details/103863621
———————————————————————————————————

“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。

大数据面试宝典目录,请点击

HDFS 小文件优化方法(☆☆☆☆☆)

1) HDFS 小文件弊端:
       HDFS 上每个文件都要在namenode 上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode 的内存空间,另一方面就是索引文件过大是的索引速度变慢。
2) 解决的方式:
(1)Hadoop 本身提供了一些文件压缩的方案。
(2)从系统层面改变现有HDFS 存在的问题,其实主要还是小文件的合并,然后建立比较快速的索引。
3) Hadoop 自带小文件解决方案
(1)Hadoop Archive:
       是一个高效地将小文件放入HDFS 块中的文件存档工具,它能够将多个小文件打包成一个HAR 文件,这样在减少namenode 内存使用的同时。
(2)Sequence file:
       sequence file 由一系列的二进制key/value 组成,如果为key 小文件名,value 为文件内容,则可以将大批小文件合并成一个大文件。
(3)CombineFileInputFormat:
       CombineFileInputFormat 是一种新的inputformat,用于将多个文件合并成一个单独的split,另外,它会考虑数据的存储位置。
4)小文件优化(实战经验)
       对于大量小文件Job,可以开启JVM 重用会减少45%运行时间。JVM 重用理解:一个map 运行一个jvm,重用的话,在一个map 在jvm 上运行完毕后,jvm 继续运行其他jvm具体设置:mapreduce.job.jvm.numtasks 值在10-20 之间。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wzc8961661/article/details/104509550

智能推荐

Qt QTableWidget表格控件的用法(非常详细)_qt中的tablewidget控件里面的表格只能上下翻页拉动滑块但是不能左右拉动滑块-程序员宅基地

文章浏览阅读2.6w次,点赞61次,收藏473次。Qt QTableWidget表格控件的用法(非常详细)QTableWidget 是 Qt 提供的一种表格控件(如图 1 所示),类似于我们经常使用的 Excel 表格,可以将数据以表格的方式展示给用户。整个 QTableWidget 表格可以分为 3 个区域:区域 ① 和 ② 都是表头,区域 ① 设置每一行的表头,区域 ② 设置每一列的表头。我们可以自定义两个区域内的表头,比如第一列是各个教程的名称,所以第一列的表头可以修改为“教程名称”;区域 ③ 为数据区,表格中所有的数据都位于此区域,该区域内_qt中的tablewidget控件里面的表格只能上下翻页拉动滑块但是不能左右拉动滑块

如何成为一名黑客?-程序员宅基地

文章浏览阅读2k次,点赞3次,收藏9次。如何成为一名黑客? Eric Raymond 身为Jargon File的编辑,常有一些..._如何成为一名黑客

HAL库学习之阶段性总结_学hal库要多久时间-程序员宅基地

文章浏览阅读548次。很久没写博客了,一晃都三四个月了。HAL库基本上算是弄懂了,中间抽时间研究了下UCOSII操作系统和CADENCE画原理图。接下来的目标:1.HAL库其他的外设,CAN,PWM,网口2.CADENCE画PCB(或者AD)..._学hal库要多久时间

语言包 I18n 使用(如何搭配element-ui)_i18n语言包-程序员宅基地

文章浏览阅读1.2k次。语言包 I18n 使用(如何搭配element-ui)_i18n语言包

如何关闭ESLint,一次成功_eslint阻断-程序员宅基地

文章浏览阅读2.4w次,点赞3次,收藏8次。ESLint可以用来识别 ECMAScript ,并且按照规则给出报告的代码检测工具,使用它可以避免低级错误和统一代码的风格。但是有时候新手会被ESLint的报错阻止程序的运行,这时候我们就想关闭这个ESLint了。vue项目中关闭ESLint方法:找到build文件夹—>webpack.base.conf.js---->module然后重启服务,npm run dev 就可以..._eslint阻断

GMS CTS测试命令汇总_attestationperformancetest-程序员宅基地

文章浏览阅读334次。CTS是的英文简写,意为兼容性测试。CTS测试主要是测试OEM厂商设计的Android平台是不是符合Android的API接口定义。通过CTS测试不仅可以保证Android设备上正常运行,同时,也能够让所有的开发者放心地制作高质量的应用程序,因此只有通过CTS认证的设备才能合法的安装使用等Google应用。先 ./cts-tradefedrun cts 测试全部。_attestationperformancetest

随便推点

Harbor安装-程序员宅基地

文章浏览阅读459次,点赞10次,收藏7次。Harbor安装

蓝桥杯 算法训练 最短路_蓝桥杯最短路径-程序员宅基地

文章浏览阅读379次。问题描述给定一个n个顶点,m条边的有向图(其中某些边权可能为负,但保证没有负环)。请你计算从1号点到其他点的最短路(顶点从1到n编号)。输入格式第一行两个整数n, m。接下来的m行,每行有三个整数u, v, l,表示u到v有一条长度为l的边。输出格式共n-1行,第i行表示1号点到i+1号点的最短路。样例输入3 31 2 -12 3 -13 1 2样例输出-1-2数据规模与约定对于10%的数据,n ..._蓝桥杯最短路径

python xlwt模块使用_(转)Python中xlrd和xlwt模块使用方法-程序员宅基地

文章浏览阅读117次。转自:https://www.cnblogs.com/xiao-apple36/p/9603499.html阅读目录xlrd模块实现对excel文件内容读取,xlwt模块实现对excel文件的写入。安装12pip install xlrdpip install xlwtxlrd模块使用excel文档名称为联系人.xls,内容如下:(1) 打开excel文件并获取所有sheet1234567impo..._xlwt模块使用方法

JSP—— JSP四大作用域及获取头信息,2024大厂Android面试题精选-程序员宅基地

文章浏览阅读461次,点赞13次,收藏7次。相信大多数从事Android开发的朋友们越来越发现,找工作越来越难了,面试的要求越来越高了除了基础扎实的java知识,数据结构算法,设计模式还要求会底层源码,NDK技术,性能调优,还有会些小程序和跨平台,比如说flutter,以思维脑图的方式展示在下图;发的朋友们越来越发现,找工作越来越难了,面试的要求越来越高了除了基础扎实的java知识,数据结构算法,设计模式还要求会底层源码,NDK技术,性能调优,还有会些小程序和跨平台,比如说flutter,以思维脑图的方式展示在下图;

C语言入门——分支和循环_c语言分支编程教程-程序员宅基地

文章浏览阅读321次。详细解析if和switch两种分支语句以及for、while、do while三种循环语句_c语言分支编程教程

vue 等比例缩放_vue页面等比例缩放-程序员宅基地

文章浏览阅读7.2k次,点赞5次,收藏19次。等比例缩放可以在不同的分辨率下都能够一屏展示,不会有滚动条的问题,也不会有适配问题。但是会导致浏览器的缩放功能失效。代码如下:<template> <div id="app" :style="{'transform':`scale(${scalesNum}) translate(-50%,0)`, '-webkit-transform':`scale(${scalesNum}) translate(-50%,0)`, '-moz-transform':`s_vue页面等比例缩放

推荐文章

热门文章

相关标签