mata teras
menganalisis dataset secara manual untuk mengekstrak data yang berguna, atau bahkan melakukan operasi yang sama dengan program yang mudah, sering menjadi kompleks dan memakan masa. Nasib baik, dengan API OpenAI dan Python, dataset boleh dianalisis secara sistematik untuk maklumat yang menarik tanpa kod yang direka dan membuang masa. Ini boleh digunakan sebagai penyelesaian sejagat untuk analisis data tanpa perlu menggunakan kaedah, perpustakaan, dan API yang berbeza untuk menganalisis pelbagai jenis data dan titik data dalam dataset.
Mari belajar langkah demi langkah bagaimana menganalisis data anda menggunakan API OpenAI dan Python, pertama sekali, bagaimana untuk menetapkannya.
Tetapan
Untuk menggunakan API OpenAI untuk lombong dan menganalisis data melalui Python, pasang perpustakaan Openai dan Pandas:
pip3 install openai pandas
menganalisis fail teks
Dalam tutorial ini, saya fikir ia akan menjadi menarik untuk mempunyai Python menganalisis panggilan pendapatan terkini NVIDIA.Muat turun panggilan pendapatan nvidia terkini yang saya dapat dari Motley Fool dan gerakkannya ke folder projek anda.
kemudian buka fail python kosong anda dan tambahkan kod ini.
Kod ini membaca rekod Laporan Kewangan NVIDIA yang anda muat turun dan lulus ke fungsi Extract_info sebagai pemboleh ubah transkrip.
fungsi extract_info melepasi arahan dan rekod sebagai input pengguna, serta suhu = 0.3 dan model = "GPT-3.5-Turbo-16K". Alasannya menggunakan model "GPT-3.5-Turbo-16K" adalah bahawa ia boleh mengendalikan teks besar seperti rekod ini. Kod ini menggunakan OpenAI.ChatCompletion.Create Endpoint untuk mendapatkan respons dan lulus pembolehubah propt dan transkrip sebagai input pengguna:
completions = openai.ChatCompletion.create( model="gpt-3.5-turbo-16k", messages=[ {"role": "user", "content": prompt+"\n\n"+text} ], temperature=0.3, )
<code>从文本中提取以下信息: 英伟达的收入 英伟达本季度做了什么 关于人工智能的评论 英伟达财报记录在此处</code>
pip3 install openai pandas
Seperti yang anda lihat, ia mengembalikan respons teks serta penggunaan token yang diminta, yang berguna jika anda mengesan perbelanjaan dan kos pengoptimuman. Tetapi kerana kita hanya berminat dengan teks respons, kita dapat dengan menyatakan penyelesaian.
Jika anda menjalankan kod, anda harus mendapatkan output yang serupa dengan apa yang disebutkan di bawah:
Seperti yang anda lihat, kod mengekstrak maklumat yang ditentukan dalam prompt (pendapatan Nvidia, apa yang dilakukan Nvidia pada suku ini, dan komen mengenai kecerdasan buatan) dan mencetaknya.Dari teks, kita boleh mengeluarkan maklumat berikut:
Hasil Nvidia: Pada suku kedua fiskal 2024, Nvidia melaporkan pendapatan suku tahun kedua sebanyak AS $ 13.51 bilion, peningkatan sebanyak 88% bulan ke bulan dan 101% tahun ke tahun.
- Apa yang Nvidia lakukan pada suku ini: Nvidia telah melihat pertumbuhan yang ketara dalam semua bidang. Pendapatan mereka dalam sektor pusat data mencatatkan rekod, naik 141% bulan ke bulan dan 171% tahun ke tahun. Bahagian permainan mereka juga mencapai pertumbuhan, dengan pendapatan sebanyak 11% bulan ke bulan dan 22% tahun ke tahun. Di samping itu, pendapatan jabatan visualisasi profesional mereka meningkat sebanyak 28% bulan ke bulan. Mereka juga mengumumkan perkongsian dan perkongsian dengan syarikat -syarikat seperti Snowflake, ServiceNow, Accenture, Hugging Face, VMware dan SoftBank.
- Komen mengenai AI: NVIDIA menyoroti permintaan yang kukuh untuk platform AI dan penyelesaian pengkomputeran yang dipercepatkan. Mereka menyebut penggunaan penyedia perkhidmatan awan utama dan syarikat internet pengguna dalam sistem HGX mereka. Mereka juga membincangkan penerapan kecerdasan buatan generatif dalam pelbagai industri seperti pemasaran, media dan hiburan. Nvidia menekankan potensi kecerdasan buatan generatif untuk mewujudkan peluang pasaran baru dan meningkatkan produktiviti dalam sektor yang berbeza.
menganalisis fail CSV
Menganalisis panggilan pendapatan dan fail teks adalah sejuk, tetapi secara sistematik menganalisis sejumlah besar data, anda perlu menggunakan fail CSV.Sebagai contoh kerja, muat turun dataset CSV artikel Medium ini dan tampalnya ke dalam fail projek anda.
Jika anda melihat fail CSV, anda akan melihat bahawa ia mempunyai lajur seperti pengarang, suka, masa membaca, pautan, tajuk, dan teks. Untuk menganalisis artikel media menggunakan OpenAI, anda hanya memerlukan lajur "tajuk" dan "teks".
Buat fail python baru dalam folder projek anda dan tampal kod ini.
Kod ini sedikit berbeza daripada kod yang kami gunakan untuk menganalisis fail teks. Ia membaca garis CSV mengikut baris, mengekstrak kepingan maklumat yang ditentukan, dan menambahkannya ke lajur baru.
Dalam tutorial ini, saya memilih dataset CSV untuk artikel Sederhana, yang saya dapat dari Hsankesara di Kaggle. Kod analisis CSV ini akan menggunakan lajur "tajuk" dan "artikel" fail CSV untuk mencari nada keseluruhan dan pelajaran utama/mata setiap jawatan. Oleh kerana saya selalu menemui artikel clickbait pada medium, saya rasa membiarkannya menilai setiap artikel dengan memberikan setiap artikel 0 hingga 3 "rating clickbait" (0 bermakna tiada clickbait, 3 bermaksud clickbait melampau) tahap "umpan klik" artikel juga sangat Menarik.
Menganalisis keseluruhan fail CSV akan mengambil masa terlalu lama dan mengambil terlalu banyak mata API sebelum saya menerangkan kod tersebut, jadi dalam tutorial ini saya membuat kod menganalisis lima artikel pertama menggunakan df = df [: 5].
anda mungkin keliru dengan bahagian -bahagian kod berikut, jadi saya jelaskan:
pip3 install openai pandas
Kod ini melangkah ke atas semua artikel (baris) dalam fail CSV dan mendapat tajuk dan badan setiap artikel pada setiap lelaran dan lulus ke fungsi Extract_info yang kita lihat sebelum ini. Ia kemudian menggunakan kod berikut untuk menukar respons fungsi Extract_info ke dalam senarai untuk memisahkan coretan maklumat yang berbeza menggunakan kod ini:
completions = openai.ChatCompletion.create( model="gpt-3.5-turbo-16k", messages=[ {"role": "user", "content": prompt+"\n\n"+text} ], temperature=0.3, )
Seterusnya, ia menambah setiap maklumat ke dalam senarai dan jika ralat berlaku (jika tidak ada nilai), menambah "tiada hasil" ke senarai:
<code>从文本中提取以下信息: 英伟达的收入 英伟达本季度做了什么 关于人工智能的评论 英伟达财报记录在此处</code>
Akhirnya, selepas gelung untuk selesai, senarai yang mengandungi maklumat yang diekstrak akan dimasukkan ke dalam lajur baru dalam fail CSV:
{ "choices": [ { "finish_reason": "stop", "index": 0, "message": { "content": "实际响应", "role": "assistant" } } ], "created": 1693336390, "id": "request-id", "model": "gpt-3.5-turbo-16k-0613", "object": "chat.completion", "usage": { "completion_tokens": 579, "prompt_tokens": 3615, "total_tokens": 4194 } }
seperti yang anda lihat, ia menambah senarai ke lajur CSV baru yang dipanggil "Tone", "MAIN_LESSON_OR_POINT", dan "clickbait_score".
kemudian gunakan indeks = palsu untuk melampirkannya ke fail CSV:
for di in range(len(df)): title = titles[di] abstract = articles[di] additional_params = extract_info('Title: '+str(title) + '\n\n' + 'Text: ' + str(abstract)) try: result = additional_params.split("\n\n") except: result = {}
Sebab mengapa indeks = palsu mesti ditentukan adalah untuk mengelakkan membuat lajur indeks baru setiap kali lajur baru dilampirkan pada fail CSV.
Sekarang jika anda menjalankan fail python, tunggu untuk menyelesaikannya dan periksa fail CSV kami dalam penonton fail CSV, anda akan melihat lajur baru seperti yang ditunjukkan dalam imej berikut.
Memproses pelbagai fail
Jika anda ingin menganalisis pelbagai fail secara automatik, anda perlu meletakkannya terlebih dahulu dalam satu folder dan pastikan folder itu hanya mengandungi fail yang anda minati, untuk mengelakkan kod python anda daripada membaca fail yang tidak relevan. Kemudian, pasang Perpustakaan Glob menggunakan PIP3 Install Glob dan importnya dalam fail Python anda menggunakan Import Glob.Dalam fail python anda, gunakan kod ini untuk mendapatkan senarai semua fail dalam folder data:
try: result = additional_params.split("\n\n") except: result = {}
try: apa1.append(result[0]) except Exception as e: apa1.append('No result') try: apa2.append(result[1]) except Exception as e: apa2.append('No result') try: apa3.append(result[2]) except Exception as e: apa3.append('No result')
df = df.assign(Tone=apa1) df = df.assign(Main_lesson_or_point=apa2) df = df.assign(Clickbait_score=apa3)
df.to_csv("data.csv", index=False)
data_files = glob.glob("data_folder/*")
Kesimpulan
ingat untuk bereksperimen dengan parameter suhu anda dan menyesuaikannya mengikut kes penggunaan anda. Jika anda mahu AI menjana jawapan yang lebih kreatif, meningkatkan nilai suhu;Gabungan analisis data OpenAI dan Python mempunyai banyak aplikasi sebagai tambahan kepada analisis rekod panggilan artikel dan kewangan. Sebagai contoh, analisis berita, analisis buku, analisis semakan pelanggan, dan lain -lain! Iaitu, apabila menguji kod python anda pada dataset yang besar, pastikan untuk mengujinya hanya sebahagian kecil daripada dataset penuh untuk menjimatkan mata dan masa API.
Soalan Lazim (Soalan Lazim) Mengenai OpenAI API untuk Analisis Data Python
API OpenAI adalah alat yang berkuasa yang membolehkan pemaju mengakses dan memanfaatkan keupayaan model OpenAI. Ia berfungsi dengan menghantar permintaan ke titik akhir API, yang kemudian memproses permintaan dan mengembalikan output. API boleh digunakan untuk pelbagai tugas, termasuk penjanaan teks, terjemahan, ringkasan, dan banyak lagi. Ia direka untuk menjadi mudah digunakan, dengan antara muka yang mudah dan dokumentasi yang jelas.
API OpenAI membolehkan analisis data dengan memanfaatkan keupayaan pembelajaran mesinnya. Sebagai contoh, anda boleh menggunakannya untuk menganalisis data teks, mengekstrak pandangan, dan membuat ramalan. Anda boleh menggunakan data anda untuk menghantar permintaan ke API dan ia akan mengembalikan hasil analisis. Ini boleh dilakukan menggunakan Python, kerana API menyokong integrasi Python.
Terdapat banyak manfaat menggunakan API OpenAI untuk analisis data. Pertama, ia membolehkan anda memanfaatkan kuasa pembelajaran mesin tanpa perlu membina dan melatih model anda sendiri, menjimatkan masa dan sumber anda. Kedua, ia boleh mengendalikan sejumlah besar data dan memberikan pandangan yang mungkin sukar diperoleh secara manual. Akhirnya, ia fleksibel dan boleh digunakan dalam pelbagai tugas analisis data.
Mengintegrasikan API Terbuka dengan Python sangat mudah. Anda perlu memasang klien Python OpenAI, yang boleh dilakukan menggunakan PIP. Sebaik sahaja pemasangan selesai, anda boleh mengimport perpustakaan OpenAI dalam skrip Python anda dan menggunakannya untuk menghantar permintaan ke API. Anda juga perlu menyediakan kunci API anda, yang boleh anda dapatkan dari laman web OpenAI.
API OpenAI boleh digunakan untuk pelbagai tugas. Sebagai contoh, ia boleh digunakan untuk penjanaan teks, yang boleh menjana teks seperti manusia berdasarkan arahan. Ia juga boleh digunakan dalam terjemahan, abstrak dan analisis sentimen. Dalam konteks analisis data, ia boleh digunakan untuk menganalisis data teks, mengekstrak pandangan, dan membuat ramalan.
Walaupun API Openai berkuasa, ia mempunyai beberapa batasan. Sebagai contoh, terdapat had pada bilangan permintaan yang boleh anda hantar ke API seminit. Juga, API tidak percuma dan kos boleh meningkat jika anda bekerja pada banyak data. Akhirnya, sementara API biasanya tepat, ia tidak sempurna dan hasilnya harus digunakan sebagai sebahagian daripada strategi analisis yang lebih luas.
Jika anda mempunyai masalah menggunakan API OpenAI, anda boleh mengambil beberapa langkah. Pertama, periksa mesej ralat, kerana ia biasanya memberikan petunjuk mengenai punca masalah. Anda juga boleh merujuk kepada dokumentasi API, yang memberikan maklumat terperinci tentang cara menggunakan API dan menyelesaikan masalah soalan yang sering ditanya. Jika anda masih menghadapi masalah, anda boleh menghubungi komuniti Openai untuk mendapatkan bantuan.
Openai API direka dengan keselamatan dalam fikiran. Semua data yang dihantar ke API disulitkan semasa penghantaran, dan OpenAI mempunyai dasar yang ketat untuk melindungi data anda. Tetapi, seperti mana -mana perkhidmatan dalam talian, adalah penting untuk menggunakan API secara bertanggungjawab dan mengikuti amalan terbaik keselamatan data.
Ya, anda boleh menggunakan API OpenAI untuk tujuan komersil. Walau bagaimanapun, anda harus tahu bahawa menggunakan API akan menanggung kos dan anda harus menyemak syarat perkhidmatan API untuk memastikan penggunaan yang dimaksudkan anda memenuhi keperluan.
Masa depan API Openai cerah. OpenAI sentiasa memperbaiki modelnya dan memperluaskan keupayaan API. Dengan evolusi pembelajaran mesin dan kecerdasan buatan yang berterusan, kita boleh mengharapkan API menjadi lebih berkuasa dan serba boleh.
Atas ialah kandungan terperinci Cara Melakukan Analisis Data di Python Menggunakan API Terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!