Hive实战:词频统计_hive 对频数进行分组统计-程序员宅基地

技术标签: hive  

一、实战概述

在本次实战任务中,我们的目标是在大数据环境下利用Hive工具进行词频统计。以下是详细步骤和关键操作的优化描述:

  1. 数据源准备:

    • 将测试用的文本文件test.txt上传到HDFS的/hivewc/input目录,以便Hive高效访问数据。
  2. Hive环境准备:

    • 启动Hive Metastore服务,确保Hive元数据存储正常运行。
    • 启动Hive客户端,方便后续的数据操作和查询。
  3. 数据表创建:

    • 在Hive客户端中创建一个名为t_word的外部表,仅包含一个word字段,类型为字符串,用于存储拆分后的单词。
    • 将表的位置设置为HDFS中的/hivewc/input目录,实现Hive与HDFS数据的无缝对接。
  4. 词频统计逻辑实现:

    • 使用一条优化过的Hive SQL语句实现词频统计。该语句利用explode和split函数高效拆分每个句子为单个单词。
    • 通过子查询和分组操作对单词进行计数,确保准确统计每个单词的频率。
  5. 结果分析与展望:

    • 执行优化后的SQL语句,高效完成词频统计任务,并获得准确结果。
    • 通过这个实战任务,加深对Hive的理解和应用能力,为今后的数据处理工作积累经验。
    • 在大数据分析和处理任务中,这些经验将发挥重要的指导作用。

二、提出任务

  • 对以下数据进行,进行词频统计
hello hadoop hello hive
hello hbase hello spark
we will learn hadoop
we will learn hive
we love hadoop spark

三、完成任务

(一)准备数据文件

1、在虚拟机上创建文本文件

  • 在master虚拟机上创建test.txt文件
    在这里插入图片描述

2、启动Hadoop服务

  • 执行命令:start-all.sh
    在这里插入图片描述

3、将文本文件上传到HDFS指定目录

  • 在HDFS上创建/hivewc/input目录
    在这里插入图片描述

  • test.txt文件上传到HDFS的/hivewc/input目录
    在这里插入图片描述

(二)实现步骤

1、启动Hive Metastore服务

  • 我们需要启动Hive Metastore服务,这是Hive的元数据存储服务。
    执行命令:hive --service metastore &
    在这里插入图片描述

2、启动Hive客户端

  • 执行命令:hive,看到命令提示符hive>
    在这里插入图片描述

3、基于HDFS文件创建外部表

  • 基于/hivewc/input下的文件创建外部表t_word
    执行命令:CREATE EXTERNAL TABLE t_word(line string) LOCATION '/hivewc/input';
    在这里插入图片描述
  • 在MySQL的hive数据库的TBLS表里,我们可以查看外部表t_word对应的记录。
    在这里插入图片描述

4、查询单词表,所有单词成一列

  • 查看单词表记录,执行语句:SELECT line FROM t_word;
    在这里插入图片描述

  • 按空格拆分行数据,执行语句:SELECT split(line, ' ') FROM t_word;
    在这里插入图片描述

  • 让单词成一列,执行语句:SELECT explode(split(line, ' ')) AS word FROM t_word;
    在这里插入图片描述

5、基于查询结果创建视图

  • 基于查询结果创建了一个视图v_word
    执行语句:CREATE VIEW v_word AS SELECT explode(split(line, ' ')) AS word FROM t_word;
    在这里插入图片描述
  • 查询视图的全部记录,执行语句:SELECT word FROM v_word;
    在这里插入图片描述

6、基于视图进行分组统计

  • 基于视图分组统计操作,执行语句:SELECT word, COUNT(*) FROM v_word GROUP BY word;
    在这里插入图片描述

7、基于嵌套查询一步搞定

  • 为了更简便地实现相同的效果,使用嵌套查询:SELECT word, COUNT(*) FROM (SELECT explode(split(line, ' ')) AS word FROM t_word) AS v_word GROUP BY word;
    在这里插入图片描述
    注意,这里在嵌套查询中,我们为子查询取了一个别名,这个别名是v_word。

这条SQL语句是在处理一个名为t_word的表,该表中有一个word字段,该字段存储的是由空格分隔的单词字符串。

首先,使用explode(split(line, ’ ')) AS word从t_word表中的每一行word字段创建一个新的临时表(别名v_word)。这里split(word, ’ ')函数将每个word字段的内容按照空格分割成多个单词,并生成一个多行的结果集,每行包含一个单词。

explode函数则将这个分割后的数组转换为多行记录,即每一行对应原字符串中的一个单词。

然后,通过GROUP BY word对新生成的临时表v_word中的word字段进行分组,即将所有相同的单词归为一组。

最后,使用COUNT(*)统计每个单词分组的数量,结果将展示每个单词及其在原始数据集中出现的次数。

整个查询的目的在于统计t_word表中各个单词出现的频率。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/linlong2003/article/details/135761791

智能推荐

mx250显卡天梯图_2020年最新笔记本显卡天梯图,看看你的显卡排在哪!-程序员宅基地

文章浏览阅读1.5k次。显卡天梯图就是显卡的性能排行榜,目前显卡主要有Nvidia(英伟达)和AMD(超微半导体)两大品牌。我们都知道,显卡性能决定了电脑的图像处理能力。对于喜欢玩游戏的电脑用户来说,处理器和显卡是用户最关心的电脑硬件,一块好的显卡对于游戏的运行效率、画面显示会起到重要作用。下面小编就和大家分享一下2020年1月笔记本显卡天梯图,有需要的朋友可以参考参考。2020最新笔记本显卡天梯图以下就是2020年1月..._显卡geforce mx250和gtx1660

Java学习之一:断点调试_java如何打断电调试代码-程序员宅基地

文章浏览阅读2.6w次,点赞14次,收藏56次。我们在学习Java语言时由于一些语法错误或者个人书写错误导致程序不能正常运行,或者是程序正常运行但得到的运行结果不是理想的结果,这时候我们就需要对代码段进行断点调试了。设置断点是Java的基本功,下面我就来简单的介绍下断点的设置和运行。初学者常用的IDE是Eclipse和My Eclipse,本文用Eclipse为例。 步骤一:在可能会导致程序非正常运行的代码行前打上断点。..._java如何打断电调试代码

五年级计算机课主要学哪些内容,五年级信息技术教学计划(精选4篇)-程序员宅基地

文章浏览阅读3.3k次。五年级信息技术教学计划(精选4篇)时间是箭,去来迅疾,又迎来了一个全新的起点,请一起努力,写一份教学计划吧。但是教学计划要写什么内容才能让人眼前一亮呢?下面是小编帮大家整理的五年级信息技术教学计划(精选4篇),欢迎大家分享。五年级信息技术教学计划1促进小学五年级学生全面发展,培养自主主动的学习兴趣,加强人文素养的积累,使学生能健康地发展,同时也为学生自身的学科倾向提供活动空间。通过开展信息技术活动..._五年级计算机课学什么

日期与时间处理详解_0\洲-程序员宅基地

文章浏览阅读1.2k次,点赞7次,收藏2次。时间相关概念秒在1967年的第13届国际度量衡会议上决定以原子时定义的秒作为时间的国际标准单位:铯133原子基态的两个超精细能阶间跃迁对应辐射的9,192,631,770个周期的持续时间, 起始历元定在1958年1月1日0时。原子钟是一种时钟,它以原子共振频率标准来计算及保持时间的准确。原子钟是世界上已知最准确的时间测量和频率标准。GMT格林威治标准时间(Greenwich Mean Time),是指位于伦敦郊区的皇家格林威治天文台的标准时间,因为本初子午线(Prime merid..._0\洲

java 的 io流 读取文件里面 的内容(不定时更新)_java io读取文件内容-程序员宅基地

文章浏览阅读4.8k次,点赞4次,收藏29次。io流_java io读取文件内容

图像处理——过程全解析,配图超详细!-程序员宅基地

文章浏览阅读1.4k次。点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达摘自先进测控之家《长着眼睛的机械手》课题摘要——利用图像处理技术,在50*50CM的区域内识别出5枚硬币(硬币位置任意),并且控制机械手逐一拾取5枚硬币,然后把5枚硬币逐一叠放到指定位置(指定位置随机)。图像处理过程详解——LabVIEWVision Assistant硬币位置识别算法分析与设计硬币的识别是本系统软件设计最为关..._图像处理

随便推点

IT巨头英特尔看好中国市场前景-程序员宅基地

文章浏览阅读836次。英特尔技术与制造事业部副总裁卞成刚7日在财富论坛间隙接受中新社记者采访时表示,该公司看好中国市场前景,扎根中国并以此走向世界是目前最重要的战略之一。卞成刚说,目前该公司正面临战略转型,即从传统PC服务领域扩展至所有智能设施领域,特别是移动终端。而中国目前正引领全球手机市场,预计未来手机、平板电脑等方面的发明创新将大量在中国市场涌现,并推向全球。持相同态度的还有英特尔中国区执行董事戈峻。戈峻

ceph中的radosgw相关总结_radosgw -c-程序员宅基地

文章浏览阅读627次。https://blog.csdn.net/zrs19800702/article/details/53101213http://blog.csdn.net/lzw06061139/article/details/51445311https://my.oschina.net/linuxhunter/blog/654080rgw 概述Ceph 通过radosgw提供RES..._radosgw -c

前端数据可视化ECharts使用指南——制作时间序列数据的可视化曲线_echarts 时间序列-程序员宅基地

文章浏览阅读3.7k次,点赞6次,收藏9次。我为什么选择ECharts ? 本周学校课程设计,原本随机佛系选了一个51单片机来做音乐播放器,结果在粗略玩了CN-DBpedia两天后才回过神,课设还没有开始整。于是懒癌发作,碍于身上还有比赛的作品没交,本菜鸡对硬件也没啥天赋,所以就直接把题目切换成软件方面的题目。写python的同学选择了一个时间序列数据的可视化曲线程序设计题目,果真python在数据可视化这一点性能很优秀。..._echarts 时间序列

ApplicationEventPublisherAware事件发布-程序员宅基地

文章浏览阅读1.6k次。事件类:/** * *   * @className: EarlyWarnPublishEvent *   * @description:数据风险预警发布事件 *   * @param: *   * @return: *   * @throws: *   * @author: lizz *   * @date: 2020/05/06 15:31 * */public cl..._applicationeventpublisheraware

自定义View实现仿朋友圈的图片查看器,缩放、双击、移动、回弹、下滑退出及动画等_imageview图片边界回弹-程序员宅基地

文章浏览阅读1.2k次。如需转载请注明出处!点击小图片转到图片查看的页面在Android开发中很常用到,抱着学习和分享的心态,在这里写下自己自定义的一个ImageView,可以实现类似微信朋友圈中查看图片的功能和效果。主要功能需求:1.缩放限制:自由缩放,有最大和最小的缩放限制 2居中显示:.若图片没充满整个ImageView,则缩放过程将图片居中 3.双击缩放:根据当前缩放的状态,双击放大两倍或缩小到原来 4.单指_imageview图片边界回弹

PreScan第二课:构建实验_prescan坐标系-程序员宅基地

文章浏览阅读5.5k次,点赞8次,收藏37次。为了自己和他人学习的需要,建了一个PreScan的QQ群:613469333(已满)/ 778225322(可加),加群前请私聊群主(QQ:2059799865)加入。群管理需要花费时间和精力,为了鼓励管理员和群成员积极互动,入群需交¥9.99的群费。目录1 Conventions坐标系统2 Roads3 Path&trajectories路径和轨迹3.1 Pat..._prescan坐标系

推荐文章

热门文章

相关标签