火山引擎工具技術分享:用 AI 完成資料探勘,零門檻完成 SQL 撰寫
在使用BI 工具的時候,常遇到的問題是:「不會SQL 怎麼生產加工資料、不會演算法可不可以做挖掘分析?」
而專業演算法團隊在做資料探勘時,資料分析及視覺化也會呈現相對割裂的現象。流程化完成演算法建模和資料分析工作,也是提效的好方法。
同時,對於專業數倉團隊來說,相同主題的數據內容面臨「重複建設,使用和管理時相對分散」的問題——究竟有沒有辦法在一個任務裡同時生產,同主題不同內容的資料集?生產的資料集可不可以作為輸入重新參與資料建置?
1. DataWind 視覺化建模能力來了
火山引擎推出的 BI 平台 DataWind 智慧資料洞察,推出了全新進階功能-視覺化建模。
使用者可透過視覺化拖曳、拉、連線操作,將複雜的資料加工建模流程簡化成清晰易懂的畫布流程,各類使用者依照所想即所得的思路完成資料生產加工,從而降低數據生產獲取的門檻。
畫布中支援同時建立多組畫布流程,一圖實現多資料建模任務的構建,提高資料建置的效率,降低任務管理成本;另外,畫布中整合封裝了超過40 種資料清洗、特徵工程算子,涵蓋初階到高階的資料生產能力,無需Coding 完成複雜的資料能力。
2. 零門檻的 SQL 工具
資料的生產加工是取得及分析資料的第一步。
對於非技術使用者來說,SQL 語法存在一定使用門檻,同時本機檔案無法定時更新,導致看板每次都需要手動重做。取得資料所需的技術人力往往需要排期,資料的取得時效及滿足度大大打折,因此使用零程式碼的資料建置工具變得特別重要。
下方列舉兩個典型場景,零門檻完成資料處理在工作中是如何應用的。
2.1 【場景1】所想即所得,可視化完成資料處理過程
#在產品運作迭代急需不同資料的及時輸入回饋時,可以抽象資料的處理過程,透過視覺化建模拖拉算子建構資料處理過程。
如要取得依照日期、城市粒度的訂單數量及訂單金額,並取得每日Top10 消耗金額數據的城市數據,操作如下:
##常規資料處理流程 |
######################視覺化建模處理流程########## |
|
|
2.2 【場景2】多表快速結合,輕鬆解決多重資料關聯計算
在資料處理過程中,有多個資料來源需要組合使用,常規透過Excel 需要掌握高階Vlookup 等演算法有些難度,且耗時長。同時資料量較大時,電腦效能可能沒辦法完成資料的組合計算。
如有兩份數據量比較大的訂單數據和一份客戶屬性資訊表,需要根據帳單金額和成本金額計算利潤金額,然後按照利潤貢獻高低取Top100 的用戶訂單資訊
#常規資料處理流程 |
視覺化建模處理流程 |
|
|
3. AI 資料探勘,不再高不可及
當基礎的資料清洗已經沒辦法滿足資料建置與資料分析,需要AI 演算法加持去挖掘數據更多隱藏的價值時。演算法團隊同學可能苦於無法很好與視覺化圖表連動使用,沒辦法生產好的資料快速被應用;而一般使用者可能直接被AI 程式碼的高門檻直接壓滅了這個演算法的苗頭——提需求又怕需求太淺、價值無法很好評估輸出,此時演算法挖掘成為了一種奢望。
DataWind 的視覺化建模封裝了超過30 類常見的AI 算子能力,使用者只需了解演算法的作用可以透過配置化的方式配置演算法算子的輸入和訓練目標即可完成模型訓練,根據配置的其他資料內容快速得到預測結果。
#下方將以兩個典型場景為例,看不寫Python 如何完成資料探勘。
3.1 【初階】不會 Python 也可做資料探勘
使用者日常工作基本上不涉及寫 Python,但存在做資料探勘的需求場景。他需要基於存量高意向顧客樣本做顧客意向度挖掘。此時可透過視覺化建模建構資料探勘流程:
- 拖曳到樣本資料和全部資料作為資料輸入。
- 拖入分類演算法,如 XGB 演算法用於模型訓練。
- 拖入預測算子,建立模型與全部資料的關係進行預測。
- 實際資料和預測結果結合輸出資料集,從而分析全部使用者資料的意向分佈。
3.2【高階】不寫Python 也可建立複雜演算法模型
用戶需要根據現有數據,建構一個用戶回購模型。在模型建構中需要經過資料清洗、格式轉換之後採用梯度提升樹建構預測模型,此時可以根據視覺化建模建構回購模型流程:
- 合併行:將n 個算子(圖中的長方形)輸出資料表根據一致的表頭合併成一張總的資料表,用戶銷售資料沒有增刪新屬性時此處不用改動。
- 缺失值替換:屬性列存在空值(null)時,會影響後續模型計算,使用替換缺失值算子可以將空值替換為指定預設值,用戶銷售資料沒有增刪新屬性時此處不用改動。
- one-hot 編碼: 文字類型的屬性無法直接被模型訓練使用,需要one_hot 編碼成數字向量例如:
- 梯度提升樹:負責擬合訓練數據,輸出一個可以用於預測的模型(圖中沒有標註的參數不需要維護人員修改):
- 聚合_1:移除預測資料中的重複項,取最大機率。
- 提取欄位:提取必要的 label 和機率值輸出。
4. 多場景、多工建設,管理不再分散
身為資料分析師,日常也會有許多建構資料集、建構資料看板的工作。但通常從數倉取得的底表會是一張寬表,在此基礎之上,根據不同的場景需求建構不同的資料集任務。
在後續的使用時,常常會遇到類似的資料集越來越多,但具體邏輯又無法很好的對比確認。此時,如果所有資料集邏輯在一個資料集裡面配置生成,每個資料集透過任務流程就可以判斷和定義應用就好了。
針對這一場景,DataWind 的視覺化建模能力也可以很好的完成。視覺化建模功能支援單一資料集同時被多種邏輯處理加工產生多個資料集。以處理訂單資料和使用者資料為例:
- 有使用者想看訂單的統計數據,那麼可以建構訂單統計資料集的資料處理流程。
- 有使用者就想看明細數據,但是需要對明細欄位進行加工清洗,這時可以建構訂單明細表資料集的處理流程。
- 有些使用者又想結合使用者屬性去統計使用者的訂單分佈,那麼就建立多表關聯結合指標聚合產生完成使用者訂單統計資料集。
- 同樣邏輯可以產生多重表格關聯下的使用者訂單明細資料集。
由此,透過一個任務、兩個資料輸入完成了4 個資料集的生成,4 個資料集可以建構一個資料主題域,後續相關資料使用皆可從此任務輸出的資料集進行使用。
5. 關於我們
火山引擎智慧資料洞察DataWind 是一款支援大數據明細層級自助分析的增強型ABI 平台。從資料存取、資料整合,到查詢、分析,最終以資料入口網站、數位大螢幕、管理駕駛艙的視覺化形態呈現給業務用戶,讓資料發揮價值。
以上是火山引擎工具技術分享:用 AI 完成資料探勘,零門檻完成 SQL 撰寫的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

本文介紹如何在Debian系統上自定義Apache的日誌格式。以下步驟將指導您完成配置過程:第一步:訪問Apache配置文件Debian系統的Apache主配置文件通常位於/etc/apache2/apache2.conf或/etc/apache2/httpd.conf。使用以下命令以root權限打開配置文件:sudonano/etc/apache2/apache2.conf或sudonano/etc/apache2/httpd.conf第二步:定義自定義日誌格式找到或

Tomcat日誌是診斷內存洩漏問題的關鍵。通過分析Tomcat日誌,您可以深入了解內存使用情況和垃圾回收(GC)行為,從而有效定位和解決內存洩漏。以下是如何利用Tomcat日誌排查內存洩漏:1.GC日誌分析首先,啟用詳細的GC日誌記錄。在Tomcat啟動參數中添加以下JVM選項:-XX: PrintGCDetails-XX: PrintGCDateStamps-Xloggc:gc.log這些參數會生成詳細的GC日誌(gc.log),包含GC類型、回收對像大小和時間等信息。分析gc.log

在Debian系統中,readdir函數用於讀取目錄內容,但其返回的順序並非預先定義的。要對目錄中的文件進行排序,需要先讀取所有文件,再利用qsort函數進行排序。以下代碼演示瞭如何在Debian系統中使用readdir和qsort對目錄文件進行排序:#include#include#include#include//自定義比較函數,用於qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

在Debian系統中,readdir系統調用用於讀取目錄內容。如果其性能表現不佳,可嘗試以下優化策略:精簡目錄文件數量:盡可能將大型目錄拆分成多個小型目錄,降低每次readdir調用處理的項目數量。啟用目錄內容緩存:構建緩存機制,定期或在目錄內容變更時更新緩存,減少對readdir的頻繁調用。內存緩存(如Memcached或Redis)或本地緩存(如文件或數據庫)均可考慮。採用高效數據結構:如果自行實現目錄遍歷,選擇更高效的數據結構(例如哈希表而非線性搜索)存儲和訪問目錄信

本文介紹如何在Debian系統中使用iptables或ufw配置防火牆規則,並利用Syslog記錄防火牆活動。方法一:使用iptablesiptables是Debian系統中功能強大的命令行防火牆工具。查看現有規則:使用以下命令查看當前的iptables規則:sudoiptables-L-n-v允許特定IP訪問:例如,允許IP地址192.168.1.100訪問80端口:sudoiptables-AINPUT-ptcp--dport80-s192.16

Debian系統中的readdir函數是用於讀取目錄內容的系統調用,常用於C語言編程。本文將介紹如何將readdir與其他工具集成,以增強其功能。方法一:C語言程序與管道結合首先,編寫一個C程序調用readdir函數並輸出結果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

本指南將指導您學習如何在Debian系統中使用Syslog。 Syslog是Linux系統中用於記錄系統和應用程序日誌消息的關鍵服務,它幫助管理員監控和分析系統活動,從而快速識別並解決問題。一、Syslog基礎知識Syslog的核心功能包括:集中收集和管理日誌消息;支持多種日誌輸出格式和目標位置(例如文件或網絡);提供實時日誌查看和過濾功能。二、安裝和配置Syslog(使用Rsyslog)Debian系統默認使用Rsyslog。您可以通過以下命令安裝:sudoaptupdatesud

Debian系統中,Nginx的訪問日誌和錯誤日誌默認存儲位置如下:訪問日誌(accesslog):/var/log/nginx/access.log錯誤日誌(errorlog):/var/log/nginx/error.log以上路徑是標準DebianNginx安裝的默認配置。如果您在安裝過程中修改過日誌文件存放位置,請檢查您的Nginx配置文件(通常位於/etc/nginx/nginx.conf或/etc/nginx/sites-available/目錄下)。在配置文件中
