group by详解
group by功能
在SQL中group by主要用来进行分组统计,分组字段放在group by的后面;分组结果一般需要借助聚合函数实现。
group by语法结构
1、常用语法
语法结构
SELECT
column_name1,column_name2, …
聚合函数1,聚合函数2 , …
FROM table_name
GROUP BY column_name1,column_name2, …
说明:1、group by中的分组字段和select后的字段要保持一致;2、通常group by和聚合函数一起使用,但也可以不包含聚合函数,根据业务需求决定;3、常用的聚合函数有max()、min()、avg()、sum()、count()等。
语法举例
首先创建销售表:
CREATE TABLE sale_order_item
(
ID int primary key NOT NULL,
area_name varchar(10),
mall_name varchar(10),
product_count int
);
然后向表中插入数据:
insert into sale_order_item values(1,‘销售一区’,‘城东店’,20);
insert into sale_order_item values(2,‘销售二区’,‘城西店’,15);
insert into sale_order_item values(3,‘销售一区’,‘城南店’,10);
insert into sale_order_item values(4,‘销售一区’,‘城东店’,4);
insert into sale_order_item values(5,‘销售二区’,‘城西店’,6);
insert into sale_order_item values(6,‘销售一区’,‘城南店’,11);
insert into sale_order_item values(7,‘销售一区’,‘城东店’,15);
insert into sale_order_item values(8,‘销售二区’,‘城西店’,16);
insert into sale_order_item values(9,‘销售一区’,‘城南店’,18);
insert into sale_order_item values(10,‘销售一区’,‘城东店’,22);
insert into sale_order_item values(11,‘销售二区’,‘城西店’,21);
insert into sale_order_item values(12,‘销售一区’,‘城南店’,25);
按照门店名称进行分组,查询各门店的销售量之和:
select
mall_name 门店名称,
sum(product_count) 销售量
from sale_order_item
group by mall_name;
查询结果如下所示:
2、having过滤
having需要和group by一起用,放在group by语句的后面;同时,having中的判断对象,必须为group by子句中的分组字段或者聚合函数。
语法结构(假设只有两个分组字段)
SELECT
column_name1,column_name2,
聚合函数1,聚合函数2 , …
FROM table_name
GROUP BY column_name1,column_name2 having 过滤条件
语法举例
过滤对象为GROUP BY 子句中的分组字段:
select
mall_name 门店名称,
sum(product_count) 销售量
from sale_order_item
group by mall_name having mall_name not like ‘城西店’;
通常上面的SQL语句写成下面这样:先进行条件过滤,再进行分组计算
select
mall_name 门店名称,
sum(product_count) 销售量
from sale_order_item
where mall_name not like ‘城西店’
group by mall_name ;
过滤对象为聚合函数:
select
mall_name 门店名称,
sum(product_count) 销售量
from sale_order_item
group by mall_name having sum(product_count) < 60;
3、rollup的使用
我们在使用group by功能时,发现只能对分组字段的每个子项进行统计计算,而无法对整体进行汇总计算。通过使用rollup,就可以实现对分组字段进行小计或总计。
语法结构(假设只有两个分组字段)
SELECT
column_name1,column_name2,
聚合函数1,聚合函数2 , …
FROM table_name
GROUP BY column_name1,column_name2 with rollup
语法举例
SELECT
area_name 区域名称,
mall_name 门店名称,
sum(product_count) 销售量
FROM sale_order_item
GROUP BY area_name,mall_name with rollup;
查询结果:
需要注意的是,group by后面分组字段的顺序不同时,得到的小计或总计的结果也不一样。
易错点和难点补充
1、分组字段和查询字段不一致,产生错误结果
正确写法:
SELECT
(case when mall_name in (‘城东店’,‘城南店’) then ‘销售一区’ when mall_name = ‘城西店’ then ‘销售二区’ else null end) 销售大区,
sum(product_count) 销量
FROM sale_order_item
GROUP BY (case when mall_name in (‘城东店’,‘城南店’) then ‘销售一区’ when mall_name = ‘城西店’ then ‘销售二区’ else null end);
错误写法:分组字段和查询字段不完全一致,导致销售大区的字段值错误
SELECT
mall_name 销售大区,
sum(product_count) 销量
FROM sale_order_item
GROUP BY (case when mall_name in (‘城东店’,‘城南店’) then ‘销售一区’ when mall_name = ‘城西店’ then ‘销售二区’ else null end);
这里的错误示例是在MySQL数据库下运行的;如果使用的是PgSQL数据库的话,会直接报语法错误,因为PgSQL数据库要求查询字段和分组字段必须完全一致。
强烈建议,我们在使用group by时,一定要确保查询字段和分组字段的完全一致,否则可能会产生非预期结果。
2、字符串连接
这里是在MySQL数据库下实现的,其它数据库实现方式可能会不一样。
我们在使用group by时,通常情况下是进行数值的统计,但有时需要对字符串进行处理,将多行字符串拼接成单行字符串。
这里使用的聚合函数是group_concat,其使用方法如下所示:
GROUP_CONCAT([DISTINCT] column1 [ORDER BY column2 ASC\DESC] [SEPARATOR seq]).
语法结构(假设只有两个分组字段)
SELECT
column_name1,column_name2,
group_concat()
FROM table_name
GROUP BY column_name1,column_name2
语法举例
SELECT
area_name 销售大区,
group_concat(distinct mall_name separator ‘;’) 有销售门店
FROM sale_order_item
GROUP BY area_name;
查询结果: