数据开发中，这些让你头疼过吗？

日期：2024-08-08 13:28 / 作者：zoc7RcITctunhMtq7EzA

上一篇没有了

[[425544]] 数据发散什么是数据发散

在join的过程中，关联键出现一对多，或者多对多时候，造出结果存在重复。

数据发散症状症状

（1）结果存在重复。

（2）数据量剧增。

（3）可能导致无法使用正常资源处理完成。

排查

（1）出现这种原因就是

A left join B 的时候，使用主键的关联条件中，没有关联到表B的最小粒度。

（2）查找是否是这种原因

select 关联字段 from table group by 关联字段 having count（关联字段）>1 就可以判定是否有关联字段出现不唯一的发散情况。

避免或解决

（1）如果右表关联字段有重复值则要去重，否则数据会发散。

（2）仔细写好SQL，是否存在业务逻辑的错误(关联字段用错)。

笛卡儿积什么是笛卡儿积

笛卡尔积在SQL中的实现方式既是交叉连接(Cross Join)。所有连接方式都会先生成临时笛卡尔积表，笛卡尔积是关系代数里的一个概念，表示两个表中的每一行数据任意组合。

笛卡儿积案例 A表 id name city 1 aa 1001 2 bb 1002 3 cc 1003 B表 id city_name 1 a城 2 b城 3 c城 SQL

SELECT * FROM A,B;

结果 id name city id city_name 1 aa 1001 1 a城 1 aa 1001 2 bb 1 aa 1001 3 c城 2 bb 1002 1 a城 2 bb 1002 2 bb 2 bb 1002 3 c城 3 cc 1003 1 a城 3 cc 1003 2 bb 3 cc 1003 3 c城产生原因

（1）当连接没有on条件是，会出现笛卡尔积(全部笛卡尔积)。

（2）当连接on条件是非唯一字段时，会出现笛卡尔积(局部笛卡尔积)。

（3）join的两个表中都含有空值。

怎么避免或解决

（1）关联范围在最小粒度的列.

（2）检查表的关联字段是否有空值。BOB半岛入口

数据倾斜什么是数据倾斜

数据倾斜最笼统概念就是数据的分布不平衡，有些地方数据多，有些地方数据少。在计算过程中有些地方数据早早地处理完了，有些地方数据迟迟没有处理完成，造成整个处理流程迟迟没有结束，这就是最直接数据倾斜的表现。

数据倾斜症状 Hive

hive自身的MR引擎：发现所有的map task全部完成，并且99%的reduce task完成，只剩下一个或者少数几个reduce task一直在执行，这种情况下一般都是发生了数据倾斜。说白了就是Hive的数据倾斜本质上是MapReduce的数据倾斜。