Sejak LLM melanda tempat kejadian, salah satu kes penggunaan/demo pertama ialah analisis data. Pada peringkat ini, kebanyakan kita telah menggunakan ChatGPT, Claude atau beberapa AI lain untuk menjana carta, tetapi rasanya juri masih tidak memainkan peranan yang akan dimainkan oleh AI dalam visualisasi data. Adakah kita akan terus lalai pada carta titik dan klik? Adakah AI akan menjana 100% carta? Atau adakah hibrid masa hadapan, mencampurkan beberapa generasi AI dan beberapa titik dan klik?
Sebagai pengasas dalam AI dan ruang visualisasi data, saya mendapati topik ini hampir wujud. Diasaskan selepas 2022 (iaitu selepas LLM melanda tempat kejadian secara sebenar), kita perlu membuat keputusan tentang cara kita mahu mengendalikan carta. Adakah kita melabur berjam-jam dan jam kerja pembangun (dan dana) untuk membangunkan kefungsian carta, atau adakah ia akan hilang dan kos berkurangan untuk semua alatan yang dibina pra-LLM? Atau adakah hibrid masa depan? Saya baru-baru ini menemui Data Formulator, sebuah projek penyelidikan, yang meneroka beberapa interaksi yang sangat menarik antara AI dan carta tradisional yang menghidupkan semula soalan ini untuk saya.
Dalam siaran ini saya akan melihat di mana kita berada hari ini untuk teks-ke-carta (atau teks-ke-visualisasi) dan ke mana kita mungkin tuju pada masa hadapan.
Seperti semua perkara AI, siaran ini mungkin tidak akan menua dengan baik. Beberapa maklumat atau model baharu akan keluar dalam tempoh 6 bulan akan datang dan mengubah sepenuhnya cara kita berfikir tentang topik ini. Namun begitu, mari kita lihat pelbagai keadaan visualisasi data dan AI.
Saya tidak akan berlama-lama mengenai yang ini kerana kebanyakan pembaca tahu yang ini dengan baik. Buka Excel, Helaian Google atau mana-mana alat data lain yang dibina sebelum 2023 dan anda akan mempunyai beberapa bentuk ini. Kadangkala anda mengklik untuk menambah data pada paksi, kadangkala anda menyeret dan melepaskan medan, tetapi konsepnya adalah sama: Anda menstruktur data dengan sewajarnya, kemudian anda menekan beberapa butang untuk menjana carta.
Dalam paradigma ini, sebahagian besar pembersihan dan transformasi data berlaku sebelum carta. Anda biasanya boleh menggunakan metrik pengagregatan seperti purata, median, kiraan, min, maks dll. tetapi semua transformasi adalah asas.
Carta yang dijana oleh AI, atau teks-ke-visualisasi, hanya benar-benar wujud sejak kemunculan LLM moden (jika kita menyelidiki, terdapat percubaan yang berlaku sebelum itu, tetapi untuk semua tujuan praktikal kita boleh menumpukan pada pasca 2022 LLM).
OpenAI's ChatGPT boleh menjana carta bukan interaktif menggunakan Python, atau set terhad carta interaktif menggunakan perpustakaan bahagian hadapan (lihat OpenAI Canvas untuk beberapa contoh). Seperti semua perkara OpenAI, Anthropic mempunyai konsep analognya sendiri dan mempunyai Artifak.
Perlu diperhatikan di sini bahawa carta yang dijana AI boleh dibahagikan kepada dua keluarga: Carta yang dijana Purely Pythonic/back end atau gabungan hujung belakang dan hadapan.
ChatGPT dan Claude silih berganti antara keduanya. Melatih AI untuk menjana kod hujung hadapan, dan menyepadukan kod hujung hadapan itu untuk mencipta visualisasi boleh menjadi lebih banyak kerja daripada hanya bergantung pada Python, menggunakan perpustakaan seperti plotly, matplotlib, seaborn. Sebaliknya, perpustakaan bahagian hadapan memberi pembekal dan pengguna lebih kawalan ke atas rupa dan rasa carta serta interaktiviti. Inilah sebabnya mengapa penyedia LLM mempunyai AI mereka menjana carta asas seperti carta bar, carta garisan atau plot taburan, tetapi apa-apa yang lebih canggih seperti gambar rajah Sankey atau carta air terjun kembali kepada Python.
Bar sisi ringkas di Fabi.ai: Memandangkan kami adalah platform analisis data, kami jelas menawarkan carta, dan walaupun terdapat beberapa carta titik dan klik, sebahagian besar carta yang dibuat oleh pengguna kami adalah dijana AI. Setakat ini, kami mendapati bahawa AI sangat bagus dalam menjana carta, dan dengan memanfaatkan Python tulen untuk carta, kami telah dapat melatih AI untuk menjana hampir mana-mana carta yang boleh diimpikan oleh pengguna. Setakat ini, kami telah memilih ketepatan dan fleksibiliti itu berbanding fungsi titik dan klik dan reka bentuk UI tersuai.
Hibrid: Penjanaan AI dalam paradigma titik dan klik
Di sinilah perkara mula menjadi menarik dalam perbahasan ke mana hala tuju AI teks-ke-visualisasi. Maju pantas 3 tahun dari sekarang, apabila seseorang melakukan analisis, jika mereka menggunakan AI, adakah mereka akan membiarkan AI mengambil kawalan 100%, atau adakah AI akan digunakan dalam persekitaran bercampur di mana ia hanya boleh mengedit carta dalam lingkungan fungsi titik dan klik tertentu.
Untuk membantu menjadikan gambar ini lebih konkrit, lihat Perumus Data. Ini ialah projek penyelidikan baru-baru ini yang cuba menawarkan persekitaran bercampur yang benar di mana AI boleh membuat pengeditan tertentu, tetapi pengguna boleh mengambil alih dan menggunakan fungsi titik dan klik seperti yang diperlukan.
Jika kita bertanya soalan menggunakan analogi kereta: Adakah anda percaya bahawa pada masa hadapan kereta tidak akan mempunyai stereng, atau adakah anda percaya bahawa akan ada pemandu yang perlu duduk di sana dan memberi perhatian dan kadang-kadang mengambil berakhir, sama seperti cara fungsi pandu sendiri Tesla berfungsi pada masa ini?
Persoalan ke mana arah tuju adalah sangat penting bagi kami di Fabi.ai memandangkan ini boleh mempengaruhi keputusan tertentu yang kami buat: Adakah kami melabur dalam menyepadukan perpustakaan carta di bahagian hadapan? Adakah kita bersusah payah dengan fungsi titik dan klik sama sekali? Sebagai sebuah syarikat yang semakin berkembang dan inovatif yang menerajui ruang analisis data AI, kita perlu memikirkan ke mana arah tujunya, bukan ke mana ia berada sekarang.
Jadi untuk menjawab soalan ini, saya akan menggunakan beberapa pemikiran prinsip pertama.
Dari kali pertama saya menggunakan AI dan aduan timbul mengenai kelajuan dan kos, saya percaya bahawa AI akan terus menjadi lebih baik, lebih pantas dan lebih murah. Secara kasarnya, kos setiap token telah jatuh sebanyak 87% setahun dalam beberapa tahun yang lalu. Bukan sahaja kosnya telah turun, tetapi ketepatan dan kelajuan kedua-duanya juga meningkat secara drastik.
Dalam tempoh 10 tahun akan datang, kita akan melihat kembali LLM 2024 dengan cara yang sama kita melihat kembali "superkomputer" dari tahun 80-an dan 90-an kerana kita semua mempunyai superkomputer di dalam poket kita ke mana-mana sahaja kita pergi.
Semua yang boleh dikatakan, bahawa sebarang hujah yang menyokong atau menentang mana-mana pelbagai pendekatan carta yang dinyatakan di atas tidak boleh bermakna AI terlalu perlahan, mahal atau tidak tepat untuk menjana carta. Dalam erti kata lain, untuk mempercayai bahawa carta titik dan klik masih akan wujud dalam apa jua cara, bentuk atau bentuk, anda perlu percaya bahawa terdapat sesuatu tentang pengalaman pengguna atau kes penggunaan, yang berbaloi dengan fungsi tersebut.
Pada pengalaman saya, apabila melakukan sebarang bentuk analisis data yang melibatkan visualisasi, bahagian yang sukar bukanlah carta. Perkara yang sukar ialah membersihkan data dan bersedia dalam format yang betul untuk carta yang saya cuba buat.
Katakan saya beberapa data acara pengguna yang mempunyai medan berikut:
Sekarang katakan saya ingin memplot purata tempoh acara mengikut jam untuk mengukur kependaman. Sebelum saya boleh melakukan apa-apa jenis carta dalam hamparan atau alat carta lama, saya perlu:
Tetapi meminta AI untuk melakukan ini, ia akan menguruskan semua itu dan carta hanya dalam satu atau dua saat:
# Calculate the event duration in hours df['Event duration (hours)'] = (df['Event end datetime'] - df['Event start datetime']).dt.total_seconds() / 3600 # Extract the start hour from the start datetime df['Start hour'] = df['Event start datetime'].dt.hour # Group by start hour and calculate the average duration average_duration_by_hour = df.groupby('Start hour')['Event duration (hours)'].mean().reset_index() # Plot using Plotly fig = px.bar( average_duration_by_hour, x='Start hour', y='Event duration (hours)', title='Average Event Duration by Hour', labels={'Event duration (hours)': 'Average Duration (hours)', 'Start hour': 'Hour of Day'}, text='Event duration (hours)' ) # Show the figure fig.show()
Dan ini adalah salah satu contoh yang paling mudah. Selalunya data dunia nyata jauh lebih rumit.
Pada ketika ini, anda mungkin sudah faham di mana saya bersandar. Selagi anda boleh mendapatkan set data anda secara kasar dengan semua data yang diperlukan untuk analisis, AI sudah melakukan kerja yang sangat baik dalam memanipulasinya dan mencatatnya dalam sekelip mata. Cepat ke hadapan satu, dua atau tiga tahun dari sekarang, sukar untuk membayangkan bahawa ini tidak akan menjadi standard.
Maksudnya, terdapat beberapa pendekatan hibrid menarik yang muncul seperti Perumus Data. Kes untuk pendekatan jenis ini ialah mungkin tangan dan otak kita dapat bergerak lebih pantas untuk membuat tweak dengan cepat daripada yang kita perlukan untuk memikirkan perkara yang kita mahu dan menerangkannya dengan cukup jelas untuk AI menjalankan tugasnya. Jika saya bertanya "Tunjukkan kepada saya jumlah jualan mengikut bulan dalam tempoh 12 bulan yang lalu" dengan andaian bahawa ini sepatutnya carta bar bertindan yang dipecahkan mengikut wilayah, ada kemungkinan kami mendapati lebih mudah untuk menggerakkan tetikus kami. Jika demikian keadaannya, pendekatan hibrid mungkin yang paling menarik: Minta AI untuk mencubanya dahulu, kemudian dengan beberapa klik dan anda mendapat apa yang anda mahukan.
Kunci kejayaan untuk sama ada pendekatan AI penuh atau pendekatan hibrid akan berada dalam pengalaman pengguna. Khususnya untuk pendekatan hibrid, interaksi AI dan manusia perlu berfungsi dengan sempurna seiring dan menjadi sangat intuitif kepada pengguna.
Saya teruja untuk menyaksikan ruang berkembang dan tempat kami menuju dengan teks-ke-visualisasi dalam tempoh 12 bulan akan datang.
Atas ialah kandungan terperinci Masa depan visualisasi data AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!