Beherrschen Sie die acht Datenimportmethoden von Python?-Python-Tutorial-php.cn

Beherrschen Sie die acht Datenimportmethoden von Python?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2023-04-19 12:52:03

nach vorne

1837 Leute haben es durchsucht

In den meisten Fällen werden NumPy oder Pandas zum Importieren von Daten verwendet. Führen Sie daher vor dem Start Folgendes aus:

import numpy as np
import pandas as pd

Nach dem Login kopieren

Zwei Möglichkeiten, Hilfe zu erhalten

Oft wissen Sie derzeit nicht viel über einige Funktionsmethoden. Python bietet einige Hilfeinformationen zur schnellen Verwendung von Python-Objekten.

Verwenden Sie die Info-Methode in Numpy. „Integrierte Python-Funktion“

rrree

2. Formulardaten: Flatfiles Beherrschen Sie die acht Datenimportmethoden von Python?

Verwenden Sie Numpy zum Lesen von Flatfiles

Numpys integrierte Funktionen verarbeiten Daten auf der C-Sprachebene.

Flachdatei ist eine Datei, die Datensätze ohne relative Beziehungsstruktur enthält. (Unterstützt Excel-, CSV- und Tabulator-Trennzeichendateien)

Beherrschen Sie die acht Datenimportmethoden von Python? Dateien mit einem Datentyp

Die zum Trennen von Werten verwendete Zeichenfolge überspringt die ersten beiden Zeilen. Lesen Sie den Typ des resultierenden Arrays in der ersten und dritten Spalte.

np.info(np.ndarray.dtype)

Nach dem Login kopieren

Dateien mit gemischten Datentypen

Zwei harte Anforderungen:

Header-Informationen überspringen

Unterscheiden Sie zwischen horizontalen und vertikalen Koordinaten

help(pd.read_csv)

Nach dem Login kopieren

Verwenden Sie Pandas, um Flatfiles zu lesen

filename = 'demo.txt'
file = open(filename, mode='r') # 打开文件进行读取
text = file.read() # 读取文件的内容
print(file.closed) # 检查文件是否关闭
file.close() # 关闭文件
print(text)

Nach dem Login kopieren

2. Excel-Tabelle

ExcelFile() in Pandas ist eine sehr praktische und schnelle Klasse in Pandas zum Lesen von Excel-Tabellendateien, insbesondere beim Bearbeiten von Excel-Dateien mit mehreren Tabellenblättern. Sehr praktisch.

with open('demo.txt', 'r') as file:
print(file.readline()) # 一行一行读取
print(file.readline())
print(file.readline())

Nach dem Login kopieren

Verwenden Sie die Eigenschaft sheet_names, um den Namen des zu lesenden Blatts abzurufen.

filename = 'mnist.txt'
data = np.loadtxt(filename,
delimiter=',',
skiprows=2,
usecols=[0,2],
dtype=str)

Nach dem Login kopieren

3. SAS-Datei

SAS (Statistical Analysis System) ist ein modulares und integriertes umfangreiches Anwendungssoftwaresystem. Die gespeicherte Datei sas ist eine statistische Analysedatei.

Beherrschen Sie die acht Datenimportmethoden von Python?

filename = 'titanic.csv'
data = np.genfromtxt(filename,
 delimiter=',',
 names=True,
 dtype=None)

Nach dem Login kopieren

4. Stata-Dateien

Stata ist eine vollständige und integrierte Statistiksoftware, die ihren Benutzern Datenanalyse, Datenverwaltung und professionelles Diagrammzeichnen bietet. Die gespeicherte Datei ist eine Stata-Datei mit der Erweiterung .dta.

filename = 'demo.csv' 
data = pd.read_csv(filename, 
 nrows=5,# 要读取的文件的行数
 header=None,# 作为列名的行号
 sep='t', # 分隔符使用
 comment='#',# 分隔注释的字符
 na_values=[""]) # 可以识别为NA/NaN的字符串

Nach dem Login kopieren

5. Pickled-Dateien

Fast alle Datentypen in Python (Listen, Wörterbücher, Mengen, Klassen usw.) können mit Pickle serialisiert werden. Das Pickle-Modul von Python implementiert die grundlegende Datensequenzierung und Deserialisierung. Durch die Serialisierungsoperation des Pickle-Moduls können wir die im Programm ausgeführten Objektinformationen in einer Datei speichern und durch die Deserialisierungsoperation des Pickle-Moduls das vom letzten Programm gespeicherte Objekt aus der Datei erstellen.

file = 'demo.xlsx'
data = pd.ExcelFile(file)
df_sheet2 = data.parse(sheet_name='1960-1966',
 skiprows=[0],
 names=['Country',
'AAM: War(2002)'])
df_sheet1 = pd.read_excel(data,
sheet_name=0,
parse_cols=[0],
skiprows=[0],
names=['Country'])

Nach dem Login kopieren

Die entsprechende Operation ist die Schreibmethode pickle.dump().

6. HDF5-Datei

HDF5-Datei ist eine gängige plattformübergreifende Datenspeicherdatei. Sie kann verschiedene Arten von Bildern und digitalen Daten speichern und diese Dateiformate einheitlich verarbeiten Bibliothek.

HDF5-Dateien haben im Allgemeinen .h5 oder .hdf5 als Suffix und es ist spezielle Software erforderlich, um den Inhalt der Vorschaudatei zu öffnen.

data.sheet_names

Nach dem Login kopieren

7. Matlab-Datei

Es handelt sich um eine Datei mit der Endung .mat, in der Matlab die Daten in seinem Arbeitsbereich speichert. 8. Relationale Datenbank Manager -- mit

from sas7bdat import SAS7BDAT
with SAS7BDAT('demo.sas7bdat') as file:
df_sas = file.to_data_frame()

Nach dem Login kopieren

2. Verwenden Sie Pandas, um die relationale Datenbank abzufragen

data = pd.read_stata('demo.dta')

Nach dem Login kopieren

Datenerkundung

Nachdem die Daten importiert wurden, werden die Daten zunächst untersucht, z grundlegende Informationen. Hier eine kurze Zusammenfassung.

1, NumPy-Arrays

import pickle
with open('pickled_demo.pkl', 'rb') as file:
 pickled_data = pickle.load(file) # 下载被打开被读取到的数据

Nach dem Login kopieren

2, Pandas DataFrames

import h5py
filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data = h5py.File(filename, 'r')

Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonBeherrschen Sie die acht Datenimportmethoden von Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Beherrschen Sie die acht Datenimportmethoden von Python?

Zwei Möglichkeiten, Hilfe zu erhalten

Verwenden Sie die Info-Methode in Numpy. „Integrierte Python-Funktion“

Die zum Trennen von Werten verwendete Zeichenfolge überspringt die ersten beiden Zeilen. Lesen Sie den Typ des resultierenden Arrays in der ersten und dritten Spalte.

np.info(np.ndarray.dtype)
Nach dem Login kopieren

filename = 'demo.csv' data = pd.read_csv(filename, nrows=5,# 要读取的文件的行数 header=None,# 作为列名的行号 sep='t', # 分隔符使用 comment='#',# 分隔注释的字符 na_values=[""]) # 可以识别为NA/NaN的字符串
Nach dem Login kopieren

6. HDF5-Datei

data.sheet_names
Nach dem Login kopieren

from sas7bdat import SAS7BDAT with SAS7BDAT('demo.sas7bdat') as file: df_sas = file.to_data_frame()
Nach dem Login kopieren

Nachdem die Daten importiert wurden, werden die Daten zunächst untersucht, z grundlegende Informationen. Hier eine kurze Zusammenfassung.

Beherrschen Sie die acht Datenimportmethoden von Python?

Zwei Möglichkeiten, Hilfe zu erhalten

Verwenden Sie die Info-Methode in Numpy. „Integrierte Python-Funktion“

Die zum Trennen von Werten verwendete Zeichenfolge überspringt die ersten beiden Zeilen. Lesen Sie den Typ des resultierenden Arrays in der ersten und dritten Spalte.

np.info(np.ndarray.dtype)Nach dem Login kopieren

filename = 'demo.csv' data = pd.read_csv(filename, nrows=5,# 要读取的文件的行数 header=None,# 作为列名的行号 sep='t', # 分隔符使用 comment='#',# 分隔注释的字符 na_values=[""]) # 可以识别为NA/NaN的字符串Nach dem Login kopieren

6. HDF5-Datei

data.sheet_namesNach dem Login kopieren

from sas7bdat import SAS7BDAT with SAS7BDAT('demo.sas7bdat') as file: df_sas = file.to_data_frame()Nach dem Login kopieren

Nachdem die Daten importiert wurden, werden die Daten zunächst untersucht, z grundlegende Informationen. Hier eine kurze Zusammenfassung.

np.info(np.ndarray.dtype)
Nach dem Login kopieren

filename = 'demo.csv' data = pd.read_csv(filename, nrows=5,# 要读取的文件的行数 header=None,# 作为列名的行号 sep='t', # 分隔符使用 comment='#',# 分隔注释的字符 na_values=[""]) # 可以识别为NA/NaN的字符串
Nach dem Login kopieren

data.sheet_names
Nach dem Login kopieren

from sas7bdat import SAS7BDAT with SAS7BDAT('demo.sas7bdat') as file: df_sas = file.to_data_frame()
Nach dem Login kopieren