BI ツールを使用するときに、よく遭遇する質問は次のとおりです。「SQL を知らない場合、データをどのように生成および処理できますか? 知らない場合、マイニング分析を行うことはできますか?」
プロのアルゴリズム チームがデータ マイニングを行う場合、データ分析と視覚化も比較的断片化されているように見えます。アルゴリズムのモデリングとデータ分析の作業を合理的な方法で完了することも、効率を向上させる良い方法です。
同時に、プロのデータ ウェアハウス チームにとって、同じテーマのデータ コンテンツは「繰り返し構築され、比較的分散して使用および管理される」という問題に直面しています。それを同時に作成する方法はあるのでしょうか?同じテーマの 1 つのタスクですか? 異なるコンテンツのデータセットですか?生成されたデータセットをデータ構築に再参加するための入力として使用できますか?
1. DataWind のビジュアル モデリング機能はこちらです
Volcano Engine によって開始された BI プラットフォーム DataWind インテリジェント データ インサイトは、新しい高度な機能ビジュアル モデリングを開始しました。
ユーザーは、視覚的なドラッグ、プル、接続操作を通じて、複雑なデータ処理とモデリングのプロセスを明確で理解しやすいキャンバス プロセスに簡素化できます。あらゆる種類のユーザーが、彼らが何を考えているか、それが得られるものであるというアイデアを実現し、それによってデータの生成と取得の敷居を下げます。
Canvas は、キャンバス プロセスの複数グループの同時構築をサポートしており、1 つのピクチャで複数のデータ モデリング タスクの構築を実現できるため、データ構築の効率が向上し、タスク管理コストが削減されます。さらに、Canvas は統合およびカプセル化を行います。 40 種類を超えるデータ クリーニング、特徴量エンジニアリング オペレーターにより、複雑なデータ機能を完成させるためのコーディングを必要とせずに、主要なデータ生成機能から高レベルのデータ生成機能までカバーします。
2. ゼロしきい値 SQL ツール
データの生成と処理は、データを取得して分析するための最初のステップです。
技術者以外のユーザーの場合、SQL 構文の使用には一定のしきい値があり、同時にローカル ファイルを定期的に更新できないため、毎回ダッシュボードを手動でやり直す必要があります。データを取得するために必要な技術的な人員は多くの場合スケジュール設定が必要であり、データ取得の適時性と満足度が大幅に低下するため、ゼロコード データ構築ツールを使用することが特に重要です。
以下に、ゼロしきい値データ処理が業務にどのように適用されるかを示す 2 つの典型的なシナリオを示します。
2.1 [シナリオ 1] 思ったとおりの結果が得られ、データ処理プロセスは視覚的に完了します。
製品操作の繰り返しでさまざまなデータのタイムリーな入力フィードバックが緊急に必要な場合、データ処理プロセスは視覚化によって抽象化および構築できます。モジュラー ドラッグ オペレーターはデータ処理プロセスを構築します。
日付と都市の粒度で注文件数と注文金額を取得し、日別消費量データ上位10位の都市データを取得したい場合の操作は以下のとおりです。
#一般的なデータ処理プロセス | ビジュアル モデリング プロセス # |
- 技術学生は、注文 ID/注文金額/ユーザー ID/注文日の都市などを含む注文の詳細データを取得してください。
- パースペクティブ操作、注文日、都市を通じてデータを設定します。インジケーターは注文金額の合計、注文 ID の合計です
- ピボット結果を金額順に並べ替え、シリアル番号を書き込みます。
- #フィルターを使用して上位 10 データをフィルターします
|
- データ ソースを選択するか、データベース テーブルを選択するか、CSV ファイルをアップロードするか、LarkSheet に接続します。
使用する必要があるフィールド情報をフィルタリングし、独自に定義したフィールド名と形式を構成します 集計する集計演算子を選択します日付と都市に基づいて注文量と注文金額を計算します 上位値演算子を選択し、上位 10 位の金額を取得します Fengshen に適用できるデータ セットを出力します。 グラフを描画します。
|
2.2 [シナリオ 2] 複数のテーブルをすばやく結合して、複数データの関連付けの計算を簡単に解決する
データ処理プロセスでは、複数のデータ ソースを処理する必要があります。従来、Vlookup などの高度なアルゴリズムを Excel で使いこなすのは難しく、時間もかかりました。同時に、データ量が大きい場合、コンピュータのパフォーマンスがデータの結合計算を完了できない場合があります。
比較的データ量の多い注文と顧客属性情報テーブルが2つある場合、請求金額と原価金額から利益額を計算し、上位100位のユーザー注文情報を取得する必要があります。利益貢献に基づく
一般的なデータ処理プロセス |
ビジュアルモデリングプロセス |
- #2 つ必要です 注文データを開いた後、コピー データがファイルにマージされます
- VloopUp を使用して、注文内のユーザー データと注文内のユーザー データを検索します
- ピボット テーブルを使用してユーザーの請求金額とコスト金額を計算し、利益金額を計算します。
- 利益額ごとに並べ替えられた上位 N の顧客情報を取得します
|
CSV ファイル/LaskSheet をアップロードしてデータ入力を構築できます
-
その後、3 月/4 月の注文データを 1 つのデータにマージできます 顧客情報属性テーブルを接続し、顧客属性情報をバインドします。-
## 集計方法を選択して、次に従って請求金額と費用金額を計算します。顧客固有の番号
- 計算列を選択して、請求金額と原価金額に基づいて利益金額を計算します。
- #利益額に従って並べ替えられた上位 N の顧客情報を取得します
3. AI データ マイニングはもはや手の届かないものではありません
基本的なデータ クリーニングではデータ構築とデータ分析を満足できなくなった場合、AI アルゴリズムのサポートが必要になりますデータにさらに隠れた価値がある場合。アルゴリズム チームの学生は、ビジュアル チャートをうまく操作できず、すぐに適用できる優れたデータを生成できないことに悩む可能性がありますが、一般のユーザーは、このアルゴリズムの出現を抑制するための AI コードの高いしきい値によって直接抑制される可能性があり、需要が高まっていますしかし需要が怖い 浅すぎて価値が評価できない 現時点ではアルゴリズムマイニングは贅沢品になってしまいます。
DataWind のビジュアル モデリングには、30 を超える一般的な AI オペレーター機能がカプセル化されています。ユーザーは、アルゴリズムの機能を理解し、構成を通じてアルゴリズム オペレーターの入力とトレーニング目標を構成するだけで、モデルのトレーニングを完了できます。予測を迅速に取得できます。他の構成されたデータコンテンツに基づく結果。
-
-
-
-
-
-
-
-
-
######################################################################################################################################################################################################################################################################################################################################################################################################################### Python の書き方を知らなくてもデータ マイニングを完了できます。 ### #########3.1 【初級】Python を知らなくてもデータマイニングができる######ユーザーの日常業務では基本的に Python を書くことはありませんが、データマイニングの需要シナリオ。彼は、既存の高い意図を持った顧客サンプルに基づいて顧客の意図をマイニングする必要があります。この時点で、データ マイニング プロセスはビジュアル モデリングを通じて構築できます。 ######### サンプル データとすべてのデータをデータ入力としてドラッグします。 ######モデル トレーニング用の XGB アルゴリズムなどの分類アルゴリズムにドラッグします。 ######予測演算子をドラッグして、モデルと予測用のすべてのデータの間の関係を構築します。 ######実際のデータと予測結果を出力データセットと組み合わせて、すべてのユーザーデータの意図分布を分析します。 #####################3.2 [上級] Python を記述せずに複雑なアルゴリズム モデルを構築できます######ユーザーは既存のデータに基づいてモデルを構築する必要がありますユーザー再購入モデル。モデル構築中に、データ クリーニングと形式変換後に勾配ブースティング ツリーを使用して予測モデルを構築する必要があります。このとき、再購入モデル プロセスはビジュアル モデリングに基づいて構築できます: ########## ####### #行の結合: n 個の演算子の出力データ テーブル (図の四角形) を、一貫したヘッダーに基づいて 1 つの全体的なデータ テーブルに結合します。ユーザーの販売データに新しい属性が追加または削除されない場合、変更はありませんここでは必要となります。 ######欠損値の置換: 属性列に null 値 (null) がある場合、後続のモデル計算に影響します。欠損値の置換演算子を使用して、null 値を指定されたデフォルト値に置き換えます。ユーザーの販売データは新しい属性を追加または削除しません。ここでの変更は必要ありません。 ######one-hot エンコーディング: テキスト タイプの属性はモデル トレーニングで直接使用できないため、one_hot によって数値ベクトルにエンコードする必要があります。例: ############## ###### #Gradient Boosting Tree: トレーニング データのフィッティングと、予測に使用できるモデルの出力を担当します (図でマークされていないパラメーターは、保守者が変更する必要はありません): ####### ########## #######Aggregation_1: 予測データの重複を削除し、最大の確率を取得します。 ######フィールドの抽出: 必要なラベルと確率値の出力を抽出します。 ##################4. マルチシナリオとマルチタスクの構築、管理はもはや分散化ではない
データ アナリストとして、データ セットを構築し、データ ダッシュボードを構築するための日々の作業もたくさんあります。ただし、通常、データ ウェアハウスから取得される下部テーブルは幅の広いテーブルになり、これに基づいて、さまざまなシナリオ要件に従ってさまざまなデータ セット タスクが構築されます。
その後の使用では、類似したデータ セットがさらに多くなることがよくありますが、特定のロジックを十分に比較および確認することはできません。このとき、すべてのデータセットロジックが 1 つのデータセット内に構成および生成され、各データセットがタスクプロセスを通じて判断および定義できるようになれば素晴らしいと思います。
このシナリオでは、DataWind のビジュアル モデリング機能も非常にうまく完成させることができます。ビジュアル モデリング機能は、単一のデータ セットを複数のロジック プロセスで同時に処理して複数のデータ セットを生成することをサポートします。注文データとユーザー データの処理を例に挙げます。
- ユーザーが注文統計を確認したい場合は、 注文統計データ セットのデータ処理プロセスで次のことができます。建てられる。
- 詳細データを見たいが、詳細フィールドを処理してクリーンアップする必要があるユーザーがいる場合、注文詳細テーブル データセットの処理フローを構築できます。 。
- 一部のユーザーは、ユーザー属性を組み合わせてユーザーの注文分布をカウントし、インジケーター集計と組み合わせた複数のテーブルの関連付けを構築して、完全な ユーザー注文統計データ セットを生成したいと考えています。
- 同じロジックで、複数テーブル関連付けの下で ユーザー注文詳細データ セットを生成できます。
このように、1 つのタスクと 2 つのデータ入力によって 4 つのデータ セットが生成され、これら 4 つのデータ セットでデータ主体ドメインを構築し、以降の関連データを使用できるようになります。タスクが出力したデータセットが使用されます。
5. 会社概要
Volcano Engine Intelligent Data Insight DataWind は、詳細なレベルでのセルフサービス分析をサポートする強化されたプラットフォームです。ビッグデータのレベル、ABI プラットフォーム。データ アクセス、データ統合からクエリと分析に至るまで、データは最終的にビジュアル データ ポータル、デジタル大型スクリーン、管理コックピットの形でビジネス ユーザーに提供され、データが価値を発揮できるようになります。
|
以上が火山エンジン ツール テクノロジーの共有: AI を使用してデータ マイニングを完了し、ゼロしきい値で SQL 書き込みを完了しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。