Hive.GROUPINGSETS的“陷阱”

php中文网
发布: 2016-06-07 15:54:45
原创
1594人浏览过

之前整理了一下hive 0.10版引进的grouping sets子句特性,并作了简单的句法使用体验和数据验证。但是当时没有注意到稍微复杂一点的情况,然后,在实际使用过程中,妥妥地就中了一枪。 这一枪发生在有JOIN操作的时候,情况是这样的:我要对Hive表data_table的

之前整理了一下hive 0.10版引进的grouping sets子句特性,并作了简单的句法使用体验和数据验证。但是当时没有注意到稍微复杂一点的情况,然后,在实际使用过程中,妥妥地就中了一枪。

这一枪发生在有JOIN操作的时候,情况是这样的:我要对Hive表data_table的a, b, c这3个字段去统计UV和VV这两个数据,并需要由c上卷到b,再上卷到a的统计数据。同时,要对字段b的值进行值映射,这是通过和另外一个专门描述b值的表进行JOIN来实现的。HQL语句如下:

select
         t1.a_desc,
         if(t1.group_bitvector= 1, '未区分', t2.b_desc) as b_desc,
         if(t1.group_bitvector= 1 or t1.group_bitvector = 3, '未区分', t1.c_desc) as c_desc,
         t1.group_bitvector,
         t1.act_uv,
         t1.act_vv
from
(
         select
                   a_desc,
                   b,
                   c_desc,
                   grouping__id as group_bitvector,
                   count(distinctuer_ID) as act_uv,
                   (sum(if(vv_ID is null, 1, 0)) + sum(if(vv_ID = "", 1, 0)) + count(distinct if(vv_ID is not null, if(vv_ID != "", vv_ID, null), null))) as act_vv
         from
         (
                   select
                            (
                                     case a
                                               when 0 then 'str_val_1'
                                               when 1 then 'str_val_2'
                                               when 2 then 'str_val_3'
                                               else 'str_val_4'
                                     end    
                            )as a_desc,
                            b,
                            if(c= -2 or c = -1 or c = 9, 'c_desc1', 'c_desc2') as c_desc,
                            uer_ID,
                            vv_ID
                   from data_table
                   where a = xxx
         ) t
         group by a_desc, b, c_desc
         grouping sets (a_desc,(a_desc, b),(a_desc, b, c_desc))
) t1 join dim_table t2 on (t1.b = t2.b)
登录后复制

跑出来数据,晃眼一看,是正常的,仔细一看就经不起眼睛的考验了,group_bitvector这一列貌似缺了一个值,这样GROUPING SETS下来,group_bitvector应该出现1, 3, 7这三个值,但是出来的数据竟然没有1,也就是说,缺了最顶层的聚合(只对a进行求聚合)数据!

用力想了想,才拍脑袋发现了这个微妙的错误,JOIN君扔掉了一些数据!GROUPING SETS不是会把GROUP BY子句中没有参与聚合的列置为NULL么,这些NULL值在JOIN的时候就被无情地抛弃了。。。这个时候,LEFT OUTER JOIN勇敢地站了出来,它说:只要用我替换原来的JOIN(内连接),就可以漂亮地消除了数据被过滤的问题:

select
         t1.a_desc,
         if(t1.group_bitvector= 1, '未区分', t2.b_desc) as b_desc,
         if(t1.group_bitvector= 1 or t1.group_bitvector = 3, '未区分', t1.c_desc) as c_desc,
         t1.group_bitvector,
         t1.act_uv,
         t1.act_vv
from
(
         select
                   a_desc,
                   b,
                   c_desc,
                   grouping__id as group_bitvector,
                   count(distinctuer_ID) as act_uv,
                   (sum(if(vv_ID is null, 1, 0)) + sum(if(vv_ID = "", 1, 0)) + count(distinct if(vv_ID is not null, if(vv_ID != "", vv_ID, null), null))) as act_vv
         from
         (
                   select
                            (
                                     case a
                                               when 0 then 'str_val_1'
                                               when 1 then 'str_val_2'
                                               when 2 then 'str_val_3'
                                               else 'str_val_4'
                                     end    
                            )as a_desc,
                            b,
                            if(c= -2 or c = -1 or c = 9, 'c_desc1', 'c_desc2') as c_desc,
                            uer_ID,
                            vv_ID
                   from data_table
                   where a = xxx
         ) t
         group by a_desc, b, c_desc
         grouping sets (a_desc,(a_desc, b),(a_desc, b, c_desc))
) t1 left outer join dim_table t2 on (t1.b = t2.b)
登录后复制

这个场景中,grouping__id这个函数的用处也显现出来了,要是没有它,缺数据的问题更容易被忽视。。。

数控高级编程讲义 doc版
数控高级编程讲义 doc版

在数控加工中,行切和环切是典型的两种走刀路线。 行切在手工编程时多用于规则矩形平面、台阶面和矩形下陷加工,对非矩形区域的行切一般用自动编程实现。 环切主要用于轮廓的半精、精加工及粗加工,用于粗加工时,其效率比行切低,但可方便的用刀补功能实现。本书内容全面、实例丰富、全面系统,本平台提供数控高级编程讲义doc版下载,需要的朋友们可以下载看看吧!

数控高级编程讲义 doc版 0
查看详情 数控高级编程讲义 doc版

最后,如果是多重或多列进行JOIN,就尤其要注意这个问题了~~~利用LEFT OUTER JOIN和GROUPING__ID的返回值,还是你能够很清晰无误地表达查询数据并进行GROUP组区分的需求。

最后的最后,还有一颗小小的地雷:gouping__id的返回值竟然是字符串类型,而不是直观上看到的整型!有时候Hive会自动为我们处理整型和字符串类型间的解析,毕竟字符串的很多运算和整型运算很相似。但有时候Hive也不会给我们处理,比如在用case…when…then…end子句的时候,字段数据类型必须严格相同,否则会报错,——虽然这个错误提示很明显,比较容易排查。

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号