Il existe un tableau messages
contenant des données comme celle-ci :
Id Name Other_Columns ------------------------- 1 A A_data_1 2 A A_data_2 3 A A_data_3 4 B B_data_1 5 B B_data_2 6 C C_data_1
Si j'exécute la requête select * from messages group by name
, les résultats que j'obtiendrai sont :
1 A A_data_1 4 B B_data_1 6 C C_data_1
Quelle requête renverra les résultats suivants ?
3 A A_data_3 5 B B_data_2 6 C C_data_1
C'est-à-dire que le dernier enregistrement de chaque groupe doit être renvoyé.
Actuellement, voici la requête que j'utilise :
SELECT * FROM (SELECT * FROM messages ORDER BY id DESC) AS x GROUP BY name
Mais cela semble très inefficace. Existe-t-il d'autres moyens d'obtenir le même résultat ?
UPD : 31/03/2017, version 5.7.5 MySQL active le commutateur ONLY_FULL_GROUP_BY par défaut (les requêtes GROUP BY non déterministes sont donc désactivées). De plus, ils ont mis à jour l'implémentation GROUP BY et la solution peut ne pas fonctionner comme prévu même avec le commutateur désactivé. Il faut le vérifier.
La solution ci-dessus de Bill Karwin fonctionne bien lorsque le nombre d'éléments au sein du groupe est assez petit, mais lorsque le groupe est assez grand, les performances de la requête deviennent médiocres car la solution nécessite environ n*n/2 + n/2 Comparez uniquement
EST NULL
IS NULL
.J'ai testé sur une table InnoDB contenant
groupes. Ce tableau contient les résultats des tests fonctionnels et a18684446
18684446
行和1182
组的 InnoDB 表上进行了测试。该表包含功能测试的测试结果,并以(test_id, request_id)
作为主键。因此,test_id
是一个组,我正在为每个test_id
搜索最后一个request_id
lignes et1182
(test_id, request_id)
comme clé primaire. Donc,
est un groupe et je recherche le derniertest_id
request_id- La solution de Bill fonctionne sur mon Dell e4310 depuis quelques heures maintenant, et bien qu'elle fonctionne sur un index de couverture (d'où l'utilisation de l'index dans EXPLAIN), je ne sais pas quand elle sera terminée.
J'ai quelques autres solutions basées sur la même idée : -
- Si l'index sous-jacent est un index BTREE (ce qui est généralement le cas), alors la plus grande paire
est la dernière valeur de chaque
Cela prend environ 1,2 seconde pour mes données. 🎜 🎜🎜Solution 2🎜🎜 🎜Voici une autre solution qui a pris environ 19 secondes pour ma montre : 🎜
pour chaque
.test_id
(group_id, item_value)
对是每个group_id
中的最后一个值,即如果我们按降序遍历索引,则为每个group_id
(group_id, item_value)
group_id- , c'est-à-dire si nous parcourons l'index dans par ordre décroissant, Ensuite, c'est le premier de chaque
;
group_id
Si on lit la valeur couverte par l'index, les valeurs sont lues dans l'ordre de l'index ; Chaque index contient implicitement les colonnes de clé primaire attachées à cet index (c'est-à-dire que la clé primaire est dans un index de couverture). Dans la solution ci-dessous j'opère directement sur la clé primaire, dans votre cas il vous suffit d'ajouter la colonne de clé primaire au résultat.
Dans de nombreux cas, il est beaucoup moins coûteux de collecter les ID de ligne requis dans l'ordre requis dans une sous-requête et de concaténer les résultats de la sous-requête aux ID. Puisque pour chaque ligne du résultat de la sous-requête, MySQL devra effectuer une récupération basée sur la clé primaire, la sous-requête sera placée en premier dans la jointure et les lignes seront affichées dans l'ordre de l'identifiant dans la sous-requête (si nous omettez le ORDER BY explicite pour la jointure)
3 façons dont MySQL utilise les index
est un excellent article pour vous aider à comprendre certains détails.Solution 1
C'est incroyablement rapide, prenant environ 0,8 seconde sur mes plus de 18 millions de lignes :
Si vous souhaitez changer l'ordre en ASC, placez-le dans une sous-requête qui renvoie uniquement les identifiants et utilisez-le comme sous-requête pour rejoindre le reste des colonnes :Il renvoie également les tests par ordre décroissant. C'est beaucoup plus lent car il effectue une analyse complète de l'index, mais cela vous donne une idée de la façon de générer les N lignes maximales pour chaque groupe.
L'inconvénient de cette requête est que le cache des requêtes ne peut pas mettre en cache ses résultats.
MySQL 8.0 prend désormais en charge les fonctions de fenêtre, comme presque toutes les implémentations SQL populaires. En utilisant cette syntaxe standard, nous pouvons écrire jusqu'à n requêtes par groupe :
Cette méthode et d'autres méthodes pour trouver le nombre maximum de lignes groupées sont décrites dans le manuel MySQL.
Voici la réponse originale que j'ai écrite à cette question en 2009 :
J'ai écrit la solution comme ceci :