DUCKDB: Pangkalan data berprestasi tinggi untuk Sains Data dan AI
DuckDB, baru -baru ini dikeluarkan sebagai versi yang stabil, dengan cepat mendapat daya tarikan dalam data dan komuniti AI. Integrasi lancar dengan pelbagai rangka kerja menjadikannya alat yang berharga untuk analisis data moden. Tutorial ini meneroka ciri-ciri utama DuckDB dan menunjukkan permohonannya dalam dua projek: membina aplikasi generasi pengambilan semula (RAG) dan menggunakannya sebagai enjin pertanyaan berkuasa AI.
DUCKDB adalah sistem pengurusan pangkalan data analisis moden (DBMS) moden yang menawarkan prestasi tinggi dan kemudahan penggunaan. Ia adalah DBMs relasi yang menyokong SQL, menggabungkan kesederhanaan SQLite dengan kuasa analisis yang diperlukan untuk tugas data yang kompleks.
Ciri -ciri Utama:
Bermula dengan Duckdb
Bahagian ini meliputi penyediaan DuckDB, memuatkan data CSV, analisis melakukan, dan memahami hubungan dan fungsi pertanyaan.Pertama, pasangkan pakej Python:
pip install duckdb --upgrade
Mewujudkan pangkalan data DuckDB
Buat pangkalan data yang berterusan menggunakan fungsi: connect
import duckdb con = duckdb.connect("datacamp.duckdb")
mari muat fail CSV (mis., "Bank Marketing.csv" dari Datalab) ke dalam jadual "bank":
con.execute(""" CREATE TABLE IF NOT EXISTS bank AS SELECT * FROM read_csv('bank-marketing.csv') """) con.execute("SHOW ALL TABLES").fetchdf()
Contoh pertanyaan mudah:
con.execute("SELECT * FROM bank WHERE duration < 100").fetchdf()
hubungan dan fungsi pertanyaan
Hubungan DuckDB (Jadual) boleh dipersoalkan menggunakan API Relational, Chaining Python Fungsi untuk analisis data. Contohnya: melaksanakan pertanyaan SQL secara langsung:
pip install duckdb --upgrade
query
import duckdb
con = duckdb.connect("datacamp.duckdb")
ingat untuk menutup sambungan:
con.close()
Atas ialah kandungan terperinci Tutorial DuckDB: Membina Projek AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!