技术标签: hive
在本次实战任务中,我们的目标是在大数据环境下利用Hive工具进行词频统计。以下是详细步骤和关键操作的优化描述:
数据源准备:
test.txt
上传到HDFS的/hivewc/input
目录,以便Hive高效访问数据。Hive环境准备:
数据表创建:
t_word
的外部表,仅包含一个word字段,类型为字符串,用于存储拆分后的单词。/hivewc/input
目录,实现Hive与HDFS数据的无缝对接。词频统计逻辑实现:
结果分析与展望:
hello hadoop hello hive
hello hbase hello spark
we will learn hadoop
we will learn hive
we love hadoop spark
test.txt
文件start-all.sh
在HDFS上创建/hivewc/input
目录
将test.txt
文件上传到HDFS的/hivewc/input
目录
hive --service metastore &
hive
,看到命令提示符hive>
/hivewc/input
下的文件创建外部表t_word
CREATE EXTERNAL TABLE t_word(line string) LOCATION '/hivewc/input';
查看单词表记录,执行语句:SELECT line FROM t_word;
按空格拆分行数据,执行语句:SELECT split(line, ' ') FROM t_word;
让单词成一列,执行语句:SELECT explode(split(line, ' ')) AS word FROM t_word;
v_word
CREATE VIEW v_word AS SELECT explode(split(line, ' ')) AS word FROM t_word;
SELECT word FROM v_word;
SELECT word, COUNT(*) FROM v_word GROUP BY word;
SELECT word, COUNT(*) FROM (SELECT explode(split(line, ' ')) AS word FROM t_word) AS v_word GROUP BY word;
这条SQL语句是在处理一个名为t_word的表,该表中有一个word字段,该字段存储的是由空格分隔的单词字符串。
首先,使用explode(split(line, ’ ')) AS word从t_word表中的每一行word字段创建一个新的临时表(别名v_word)。这里split(word, ’ ')函数将每个word字段的内容按照空格分割成多个单词,并生成一个多行的结果集,每行包含一个单词。
explode函数则将这个分割后的数组转换为多行记录,即每一行对应原字符串中的一个单词。
然后,通过GROUP BY word对新生成的临时表v_word中的word字段进行分组,即将所有相同的单词归为一组。
最后,使用COUNT(*)统计每个单词分组的数量,结果将展示每个单词及其在原始数据集中出现的次数。
整个查询的目的在于统计t_word表中各个单词出现的频率。
文章浏览阅读1.5k次。显卡天梯图就是显卡的性能排行榜,目前显卡主要有Nvidia(英伟达)和AMD(超微半导体)两大品牌。我们都知道,显卡性能决定了电脑的图像处理能力。对于喜欢玩游戏的电脑用户来说,处理器和显卡是用户最关心的电脑硬件,一块好的显卡对于游戏的运行效率、画面显示会起到重要作用。下面小编就和大家分享一下2020年1月笔记本显卡天梯图,有需要的朋友可以参考参考。2020最新笔记本显卡天梯图以下就是2020年1月..._显卡geforce mx250和gtx1660
文章浏览阅读2.6w次,点赞14次,收藏56次。我们在学习Java语言时由于一些语法错误或者个人书写错误导致程序不能正常运行,或者是程序正常运行但得到的运行结果不是理想的结果,这时候我们就需要对代码段进行断点调试了。设置断点是Java的基本功,下面我就来简单的介绍下断点的设置和运行。初学者常用的IDE是Eclipse和My Eclipse,本文用Eclipse为例。 步骤一:在可能会导致程序非正常运行的代码行前打上断点。..._java如何打断电调试代码
文章浏览阅读3.3k次。五年级信息技术教学计划(精选4篇)时间是箭,去来迅疾,又迎来了一个全新的起点,请一起努力,写一份教学计划吧。但是教学计划要写什么内容才能让人眼前一亮呢?下面是小编帮大家整理的五年级信息技术教学计划(精选4篇),欢迎大家分享。五年级信息技术教学计划1促进小学五年级学生全面发展,培养自主主动的学习兴趣,加强人文素养的积累,使学生能健康地发展,同时也为学生自身的学科倾向提供活动空间。通过开展信息技术活动..._五年级计算机课学什么
文章浏览阅读1.2k次,点赞7次,收藏2次。时间相关概念秒在1967年的第13届国际度量衡会议上决定以原子时定义的秒作为时间的国际标准单位:铯133原子基态的两个超精细能阶间跃迁对应辐射的9,192,631,770个周期的持续时间, 起始历元定在1958年1月1日0时。原子钟是一种时钟,它以原子共振频率标准来计算及保持时间的准确。原子钟是世界上已知最准确的时间测量和频率标准。GMT格林威治标准时间(Greenwich Mean Time),是指位于伦敦郊区的皇家格林威治天文台的标准时间,因为本初子午线(Prime merid..._0\洲
文章浏览阅读4.8k次,点赞4次,收藏29次。io流_java io读取文件内容
文章浏览阅读1.4k次。点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达摘自先进测控之家《长着眼睛的机械手》课题摘要——利用图像处理技术,在50*50CM的区域内识别出5枚硬币(硬币位置任意),并且控制机械手逐一拾取5枚硬币,然后把5枚硬币逐一叠放到指定位置(指定位置随机)。图像处理过程详解——LabVIEWVision Assistant硬币位置识别算法分析与设计硬币的识别是本系统软件设计最为关..._图像处理
文章浏览阅读836次。英特尔技术与制造事业部副总裁卞成刚7日在财富论坛间隙接受中新社记者采访时表示,该公司看好中国市场前景,扎根中国并以此走向世界是目前最重要的战略之一。卞成刚说,目前该公司正面临战略转型,即从传统PC服务领域扩展至所有智能设施领域,特别是移动终端。而中国目前正引领全球手机市场,预计未来手机、平板电脑等方面的发明创新将大量在中国市场涌现,并推向全球。持相同态度的还有英特尔中国区执行董事戈峻。戈峻
文章浏览阅读627次。https://blog.csdn.net/zrs19800702/article/details/53101213http://blog.csdn.net/lzw06061139/article/details/51445311https://my.oschina.net/linuxhunter/blog/654080rgw 概述Ceph 通过radosgw提供RES..._radosgw -c
文章浏览阅读3.7k次,点赞6次,收藏9次。我为什么选择ECharts ? 本周学校课程设计,原本随机佛系选了一个51单片机来做音乐播放器,结果在粗略玩了CN-DBpedia两天后才回过神,课设还没有开始整。于是懒癌发作,碍于身上还有比赛的作品没交,本菜鸡对硬件也没啥天赋,所以就直接把题目切换成软件方面的题目。写python的同学选择了一个时间序列数据的可视化曲线程序设计题目,果真python在数据可视化这一点性能很优秀。..._echarts 时间序列
文章浏览阅读1.6k次。事件类:/** * * * @className: EarlyWarnPublishEvent * * @description:数据风险预警发布事件 * * @param: * * @return: * * @throws: * * @author: lizz * * @date: 2020/05/06 15:31 * */public cl..._applicationeventpublisheraware
文章浏览阅读1.2k次。如需转载请注明出处!点击小图片转到图片查看的页面在Android开发中很常用到,抱着学习和分享的心态,在这里写下自己自定义的一个ImageView,可以实现类似微信朋友圈中查看图片的功能和效果。主要功能需求:1.缩放限制:自由缩放,有最大和最小的缩放限制 2居中显示:.若图片没充满整个ImageView,则缩放过程将图片居中 3.双击缩放:根据当前缩放的状态,双击放大两倍或缩小到原来 4.单指_imageview图片边界回弹
文章浏览阅读5.5k次,点赞8次,收藏37次。为了自己和他人学习的需要,建了一个PreScan的QQ群:613469333(已满)/ 778225322(可加),加群前请私聊群主(QQ:2059799865)加入。群管理需要花费时间和精力,为了鼓励管理员和群成员积极互动,入群需交¥9.99的群费。目录1 Conventions坐标系统2 Roads3 Path&trajectories路径和轨迹3.1 Pat..._prescan坐标系