


Révéler la méthode efficace de déduplication des données dans Pandas : conseils pour supprimer rapidement les données en double
La méthode de déduplication Pandas révélée : une méthode de déduplication de données rapide et efficace nécessite des exemples de code spécifiques
Dans le processus d'analyse et de traitement des données, une duplication des données est souvent rencontrée. Les données en double peuvent induire en erreur les résultats de l'analyse, la déduplication est donc une étape très importante. Pandas, une puissante bibliothèque de traitement de données, fournit une variété de méthodes pour réaliser la déduplication des données. Cet article présentera certaines méthodes de déduplication couramment utilisées et joindra des exemples de code spécifiques.
- Basé sur la déduplication d'une seule colonne
La situation la plus courante consiste à dédupliquer selon que la valeur d'une certaine colonne est répétée ou non. Dans Pandas, vous pouvez utiliser la méthode .duplicates()
pour déterminer si les valeurs d'une colonne sont dupliquées, puis utiliser la méthode .drop_duplicates()
pour supprimer valeurs en double. .duplicated()
方法来判断某一列的值是否重复,然后使用.drop_duplicates()
方法来去除重复值。
例如,我们有一个包含了学生信息的DataFrame,其中有一个列是学生的学号,我们希望根据学号去除重复的行:
import pandas as pd data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003], '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'], '年龄': [18, 19, 20, 19, 21, 20]} df = pd.DataFrame(data) df.drop_duplicates(subset='学号', inplace=True) print(df)
运行结果:
学号 姓名 年龄 0 1001 张三 18 1 1002 李四 19 2 1003 王五 20 4 1004 赵六 21
这样就去除了学号重复的行,只保留了第一次出现的行。
- 基于多列去重
有时候我们需要根据多个列的值是否重复来进行去重。在.drop_duplicates()
方法中可以通过subset
参数指定要根据哪些列进行去重。
例如,我们还是使用上面的学生信息的DataFrame,现在根据学号和姓名去除重复的行:
import pandas as pd data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003], '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'], '年龄': [18, 19, 20, 19, 21, 20]} df = pd.DataFrame(data) df.drop_duplicates(subset=['学号', '姓名'], inplace=True) print(df)
运行结果:
学号 姓名 年龄 0 1001 张三 18 1 1002 李四 19 2 1003 王五 20 4 1004 赵六 21
这样就根据学号和姓名同时去除了重复的行。
- 基于所有列去重
有时候我们希望根据整个DataFrame的所有列的值是否重复来进行去重。可以使用.duplicated()
方法的keep
参数设置为False
,则会标记所有重复的行。然后使用.drop_duplicates()
import pandas as pd data = {'学号': [1001, 1002, 1003, 1002, 1004, 1003], '姓名': ['张三', '李四', '王五', '李四', '赵六', '王五'], '年龄': [18, 19, 20, 19, 21, 20]} df = pd.DataFrame(data) df.drop_duplicates(keep=False, inplace=True) print(df)
学号 姓名 年龄 0 1001 张三 18 4 1004 赵六 21
- Déduplication basée sur plusieurs colonnes
Parfois, nous devons dédupliquer selon que les valeursde plusieurs colonnes sont répétées. Dans la méthode .drop_duplicates()
, vous pouvez utiliser le paramètre subset
pour spécifier quelles colonnes doivent être utilisées pour la déduplication.
Par exemple, nous utilisons toujours le DataFrame ci-dessus pour les informations sur les étudiants et supprimons désormais les lignes en double en fonction de l'identifiant et du nom de l'étudiant :
rrreee🎜Résultats d'exécution : 🎜rrreee🎜De cette façon, les lignes en double sont supprimées en fonction de l'identifiant et du nom de l'étudiant. en même temps. 🎜- 🎜Déduplication basée sur toutes les colonnes🎜🎜🎜Parfois, nous souhaitons dédupliquer selon que les valeurs de toutes les colonnes de l'ensemble du DataFrame sont répétées. Vous pouvez utiliser la méthode
.duplicate()
pour définir le paramètre keep
sur False
, et toutes les lignes en double seront marquées. Utilisez ensuite la méthode .drop_duplicates()
pour supprimer ces lignes en double. 🎜🎜Par exemple, nous utilisons toujours le DataFrame ci-dessus pour les informations sur les étudiants, et supprimons désormais les lignes en double en fonction de toutes les colonnes de l'ensemble du DataFrame : 🎜rrreee🎜Exécuter les résultats : 🎜rrreee🎜De cette façon, toutes les lignes en double dans l'ensemble du DataFrame sont supprimées. . 🎜🎜Résumé : 🎜🎜Cet article présente trois méthodes de déduplication couramment utilisées dans Pandas : la déduplication basée sur une seule colonne, la déduplication basée sur plusieurs colonnes et la déduplication basée sur toutes les colonnes. Sélectionnez la méthode appropriée en fonction des besoins réels pour supprimer les données en double rapidement et efficacement. Dans les applications pratiques, ces méthodes peuvent être utilisées de manière flexible en fonction de données spécifiques et des besoins pour améliorer l'efficacité du traitement et de l'analyse des données. 🎜🎜Ce qui précède représente l'intégralité du contenu de cet article. J'espère que les lecteurs pourront en bénéficier et être en mesure de mieux appliquer Pandas pour la déduplication des données. 🎜Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

DDREASE est un outil permettant de récupérer des données à partir de périphériques de fichiers ou de blocs tels que des disques durs, des SSD, des disques RAM, des CD, des DVD et des périphériques de stockage USB. Il copie les données d'un périphérique bloc à un autre, laissant derrière lui les blocs corrompus et ne déplaçant que les bons blocs. ddreasue est un puissant outil de récupération entièrement automatisé car il ne nécessite aucune interruption pendant les opérations de récupération. De plus, grâce au fichier map ddasue, il peut être arrêté et repris à tout moment. Les autres fonctionnalités clés de DDREASE sont les suivantes : Il n'écrase pas les données récupérées mais comble les lacunes en cas de récupération itérative. Cependant, il peut être tronqué si l'outil est invité à le faire explicitement. Récupérer les données de plusieurs fichiers ou blocs en un seul

0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Si vous avez besoin de savoir comment utiliser le filtrage avec plusieurs critères dans Excel, le didacticiel suivant vous guidera à travers les étapes pour vous assurer que vous pouvez filtrer et trier efficacement vos données. La fonction de filtrage d'Excel est très puissante et peut vous aider à extraire les informations dont vous avez besoin à partir de grandes quantités de données. Cette fonction peut filtrer les données en fonction des conditions que vous définissez et afficher uniquement les pièces qui remplissent les conditions, rendant la gestion des données plus efficace. En utilisant la fonction de filtre, vous pouvez trouver rapidement des données cibles, ce qui vous fait gagner du temps dans la recherche et l'organisation des données. Cette fonction peut non seulement être appliquée à de simples listes de données, mais peut également être filtrée en fonction de plusieurs conditions pour vous aider à localiser plus précisément les informations dont vous avez besoin. Dans l’ensemble, la fonction de filtrage d’Excel est très utile

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Vous êtes confronté à un décalage et à une connexion de données mobile lente sur iPhone ? En règle générale, la puissance de l'Internet cellulaire sur votre téléphone dépend de plusieurs facteurs tels que la région, le type de réseau cellulaire, le type d'itinérance, etc. Vous pouvez prendre certaines mesures pour obtenir une connexion Internet cellulaire plus rapide et plus fiable. Correctif 1 – Forcer le redémarrage de l'iPhone Parfois, le redémarrage forcé de votre appareil réinitialise simplement beaucoup de choses, y compris la connexion cellulaire. Étape 1 – Appuyez simplement une fois sur la touche d’augmentation du volume et relâchez-la. Ensuite, appuyez sur la touche de réduction du volume et relâchez-la à nouveau. Étape 2 – La partie suivante du processus consiste à maintenir le bouton sur le côté droit. Laissez l'iPhone finir de redémarrer. Activez les données cellulaires et vérifiez la vitesse du réseau. Vérifiez à nouveau Correctif 2 – Changer le mode de données Bien que la 5G offre de meilleures vitesses de réseau, elle fonctionne mieux lorsque le signal est plus faible

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

Cette semaine, FigureAI, une entreprise de robotique investie par OpenAI, Microsoft, Bezos et Nvidia, a annoncé avoir reçu près de 700 millions de dollars de financement et prévoit de développer un robot humanoïde capable de marcher de manière autonome au cours de la prochaine année. Et l’Optimus Prime de Tesla a reçu à plusieurs reprises de bonnes nouvelles. Personne ne doute que cette année sera celle de l’explosion des robots humanoïdes. SanctuaryAI, une entreprise canadienne de robotique, a récemment lancé un nouveau robot humanoïde, Phoenix. Les responsables affirment qu’il peut accomplir de nombreuses tâches de manière autonome, à la même vitesse que les humains. Pheonix, le premier robot au monde capable d'accomplir des tâches de manière autonome à la vitesse d'un humain, peut saisir, déplacer et placer avec élégance chaque objet sur ses côtés gauche et droit. Il peut identifier des objets de manière autonome

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,
