Inhaltsverzeichnis
PDF in CSV konvertieren
CSV-DATEIEN ZUSAMMENFÜHREN
Doppelte Zeilen aus CSV-Dateien entfernen
Geteilte CSV-Spalten
Verschiedene Datensätze zusammenführen
Endlich
Heim Backend-Entwicklung Python-Tutorial Fünf einfache und effektive Python-Skripte zum Bereinigen Ihrer Daten

Fünf einfache und effektive Python-Skripte zum Bereinigen Ihrer Daten

Apr 12, 2023 pm 06:31 PM
python 机器学习 脚本

PDF in CSV konvertieren

Fünf einfache und effektive Python-Skripte zum Bereinigen Ihrer Daten

Beim maschinellen Lernen sollten wir weniger „Datenbereinigung“ und mehr „Datenvorbereitung“ durchführen. Dieses Skript spart mir viel Zeit, wenn wir Daten aus Whitepapers, E-Books oder anderen PDF-Dokumenten extrahieren müssen.

import tabula
#获取文件
pdf_filename = input ("Enter the full path and filename: ")
# 提取PDF的内容
frame = tabula.read_pdf(pdf_filename,encoding = 'utf-8', pages='all')
#根据内容创建CSV文件
frame.to_csv('pdf_conversion.csv')
Nach dem Login kopieren

Dies ist eine relativ einfache Möglichkeit, Daten schnell zu extrahieren, bevor sie in eine Datenbank für maschinelles Lernen, Tableau oder Count und andere Tools importiert werden.

CSV-DATEIEN ZUSAMMENFÜHREN

Viele Systeme bieten die Option zum Exportieren in CSV an, aber es gibt keine Möglichkeit, die Daten vor dem Exportieren zuerst zusammenzuführen. Dies kann dazu führen, dass mehr als 5 Dateien in einen Ordner exportiert werden, der denselben Datentyp enthält. Dieses Python-Skript löst dieses Problem, indem es diese Dateien nimmt und sie in einer Datei zusammenführt.

from time import strftime
import pandas as pd
import glob
# 定义包含CSV文件的文件夹的路径
path = input('Please enter the full folder path: ')
#确保后面有一个斜杠
if path[:-1] != "/":
path = path + "/"
#以列表形式获取CSV文件
csv_files = glob.glob(path + '*.csv')
#打开每个CSV文件并合并为一个文件
merged_file = pd.concat( [ pd.read_csv(c) for c in csv_files ] )
#创建新文件
merged_file.to_csv(path + 'merged_{}.csv'.format(strftime("%m-%d-%yT%H:%M:%S")), index=False)
print('Merge complete.')
Nach dem Login kopieren

Die endgültige Ausgabe liefert Ihnen eine CSV-Datei mit allen Daten in der CSV-Liste, die Sie aus dem Quellsystem exportiert haben.

Doppelte Zeilen aus CSV-Dateien entfernen

Wenn Sie doppelte Datenzeilen aus CSV-Dateien entfernen müssen, kann dies Ihnen dabei helfen, Bereinigungsvorgänge schnell durchzuführen. Wenn ein Datensatz für maschinelles Lernen doppelte Daten enthält, kann sich dies direkt auf die Ergebnisse in einem Visualisierungstool oder einem Projekt für maschinelles Lernen auswirken.

import pandas as pd
# 获取文件名
filename = input('filename: ')
#定义要检查是否重复的CSV列名
duplicate_header = input('header name: ')
#获取文件的内容
file_contents = pd.read_csv(filename)
# 删除重复的行
deduplicated_data = file_contents.drop_duplicates(subset=[duplicate_header], keep="last", inplace=True)
#创建新文件
deduplicated_data.to_csv('deduplicated_data.csv')
Nach dem Login kopieren

Geteilte CSV-Spalten

Beim Exportieren von Dateien aus anderen Systemen enthält diese manchmal eine Datenspalte, wenn wir sie in zwei Spalten benötigen.

import pandas as pd
#获取文件名并定义列
filename = input('filename: ')
col_to_split = input('column name: ')
col_name_one = input('first new column: ')
col_name_two = input('second new column: ')
#将CSV数据添加到dataframe中
df = pd.read_csv(filename)
# 拆分列
df[[col_name_one,col_name_two]] = df[col_to_split].str.split(",", expand=True)
#创建新csv文件
df.to_csv('split_data.csv')
Nach dem Login kopieren

Verschiedene Datensätze zusammenführen

Angenommen, Sie haben eine Liste mit Konten und damit verbundenen Bestellungen und möchten den Bestellverlauf zusammen mit den zugehörigen Kontodetails anzeigen. Eine gute Möglichkeit hierfür ist das Zusammenführen der Daten in einer CSV-Datei.

import pandas as pd
#获取文件名并定义用户输入
left_filename = input('LEFT filename: ')
right_filename = input('RIGHT filename: ')
join_type = input('join type (outer, inner, left, right): ')
join_column_name = input('column name(i.e. Account_ID): ')
#读取文件到dataframes
df_left = pd.read_csv(left_filename)
df_right = pd.read_csv(right_filename)
#加入dataframes
joined_data = pd.merge(left = df_left, right = df_right, how = join_type, on = join_column_name)
#创建新的csv文件
joined_data.to_csv('joined_data.csv')
Nach dem Login kopieren

Endlich

Diese Skripte können uns effektiv dabei helfen, die Daten automatisch zu bereinigen, und dann können die bereinigten Daten zur Verarbeitung in das maschinelle Lernmodell geladen werden. Pandas ist die Bibliothek der Wahl für die Datenbearbeitung, da sie so viele Optionen bietet.

Das obige ist der detaillierte Inhalt vonFünf einfache und effektive Python-Skripte zum Bereinigen Ihrer Daten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Was ist der Grund, warum PS immer wieder Laden zeigt? Was ist der Grund, warum PS immer wieder Laden zeigt? Apr 06, 2025 pm 06:39 PM

PS "Laden" Probleme werden durch Probleme mit Ressourcenzugriff oder Verarbeitungsproblemen verursacht: Die Lesegeschwindigkeit von Festplatten ist langsam oder schlecht: Verwenden Sie Crystaldiskinfo, um die Gesundheit der Festplatte zu überprüfen und die problematische Festplatte zu ersetzen. Unzureichender Speicher: Upgrade-Speicher, um die Anforderungen von PS nach hochauflösenden Bildern und komplexen Schichtverarbeitung zu erfüllen. Grafikkartentreiber sind veraltet oder beschädigt: Aktualisieren Sie die Treiber, um die Kommunikation zwischen PS und der Grafikkarte zu optimieren. Dateipfade sind zu lang oder Dateinamen haben Sonderzeichen: Verwenden Sie kurze Pfade und vermeiden Sie Sonderzeichen. Das eigene Problem von PS: Installieren oder reparieren Sie das PS -Installateur neu.

Wie beschleunigt man die Ladegeschwindigkeit von PS? Wie beschleunigt man die Ladegeschwindigkeit von PS? Apr 06, 2025 pm 06:27 PM

Das Lösen des Problems des langsamen Photoshop-Startups erfordert einen mehrstufigen Ansatz, einschließlich: Upgrade-Hardware (Speicher, Solid-State-Laufwerk, CPU); Deinstallieren veraltete oder inkompatible Plug-Ins; Reinigen des Systemmülls und übermäßiger Hintergrundprogramme regelmäßig; irrelevante Programme mit Vorsicht schließen; Vermeiden Sie das Öffnen einer großen Anzahl von Dateien während des Starts.

Wie löst ich das Problem des Ladens beim Starten von PS? Wie löst ich das Problem des Ladens beim Starten von PS? Apr 06, 2025 pm 06:36 PM

Ein PS, der beim Booten auf "Laden" steckt, kann durch verschiedene Gründe verursacht werden: Deaktivieren Sie korrupte oder widersprüchliche Plugins. Eine beschädigte Konfigurationsdatei löschen oder umbenennen. Schließen Sie unnötige Programme oder aktualisieren Sie den Speicher, um einen unzureichenden Speicher zu vermeiden. Upgrade auf ein Solid-State-Laufwerk, um die Festplatte zu beschleunigen. PS neu installieren, um beschädigte Systemdateien oder ein Installationspaketprobleme zu reparieren. Fehlerinformationen während des Startprozesses der Fehlerprotokollanalyse anzeigen.

Ist das langsame PS -Laden mit der Computerkonfiguration zusammen? Ist das langsame PS -Laden mit der Computerkonfiguration zusammen? Apr 06, 2025 pm 06:24 PM

Der Grund für die langsame PS -Belastung ist der kombinierte Einfluss von Hardware (CPU, Speicher, Festplatte, Grafikkarte) und Software (System, Hintergrundprogramm). Zu den Lösungen gehören: Aktualisieren von Hardware (insbesondere Ersetzen von Solid-State-Laufwerken), Optimierung der Software (Reinigung von Systemmüll, Aktualisierung von Treibern, Überprüfung von PS-Einstellungen) und Verarbeitung von PS-Dateien. Regelmäßige Computerwartung kann auch dazu beitragen, die PS -Laufgeschwindigkeit zu verbessern.

HTML Nächste Seitenfunktion HTML Nächste Seitenfunktion Apr 06, 2025 am 11:45 AM

<p> Die nächste Seitenfunktion kann über HTML erstellt werden. Zu den Schritten gehören: Erstellen von Containerelementen, Spalten von Inhalten, Hinzufügen von Navigationsverbindungen, Verbergen anderer Seiten und Hinzufügen von Skripten. Mit dieser Funktion können Benutzer segmentierte Inhalte durchsuchen und jeweils nur eine Seite anzeigen und sind geeignet, um große Mengen an Daten oder Inhalten anzuzeigen. </p>

Wie löste ich das Problem des Ladens, wenn die PS die Datei öffnet? Wie löste ich das Problem des Ladens, wenn die PS die Datei öffnet? Apr 06, 2025 pm 06:33 PM

Das Laden von Stottern tritt beim Öffnen einer Datei auf PS auf. Zu den Gründen gehören: zu große oder beschädigte Datei, unzureichender Speicher, langsame Festplattengeschwindigkeit, Probleme mit dem Grafikkarten-Treiber, PS-Version oder Plug-in-Konflikte. Die Lösungen sind: Überprüfen Sie die Dateigröße und -integrität, erhöhen Sie den Speicher, aktualisieren Sie die Festplatte, aktualisieren Sie den Grafikkartentreiber, deinstallieren oder deaktivieren Sie verdächtige Plug-Ins und installieren Sie PS. Dieses Problem kann effektiv gelöst werden, indem die PS -Leistungseinstellungen allmählich überprüft und genutzt wird und gute Dateimanagementgewohnheiten entwickelt werden.

Wie kann man das Problem des Ladens lösen, wenn PS immer zeigt, dass es geladen wird? Wie kann man das Problem des Ladens lösen, wenn PS immer zeigt, dass es geladen wird? Apr 06, 2025 pm 06:30 PM

PS -Karte ist "Laden"? Zu den Lösungen gehören: Überprüfung der Computerkonfiguration (Speicher, Festplatte, Prozessor), Reinigen der Festplattenfragmentierung, Aktualisierung des Grafikkartentreibers, Anpassung der PS -Einstellungen, der Neuinstallation von PS und der Entwicklung guter Programmiergewohnheiten.

Was ist der Unterschied zwischen der Produktion H5 -Seiten und traditionellen Webseiten Was ist der Unterschied zwischen der Produktion H5 -Seiten und traditionellen Webseiten Apr 06, 2025 am 07:03 AM

Der Hauptunterschied zwischen H5-Seiten über herkömmlichen Webseiten ist die mobile Priorität und Flexibilität, die besser für mobile Geräte geeignet ist und eine schnellere Entwicklungseffizienz und eine bessere plattformübergreifende Kompatibilität aufweist. Insbesondere führt die H5 -Seite neue Funktionen wie semantische Tags, Multimedia -Support, Offline -Speicher und geografischen Standort ein, um das mobile Erlebnis zu verbessern.

See all articles