AI 業界への応用: データウィービングは AI アプリケーショントレーニングのブレークスルーを支援します-AI-php.cn

#この記事は、Everyone is a Product Manager の「オリジナルインセンティブプラン」によって作成されました。

大規模な AI モデルは現在非常に人気があり、あらゆる企業がその一部を望んでいますが、このプロセスの実現に必要なアルゴリズムとデータを把握するのは簡単ではありません。中でもデータの送信と管理は大きな問題です。この記事では、AI アプリケーションのトレーニングのボトルネックに焦点を当て、AI トレーニングの難しさをまとめ、IDC 分析レポートと組み合わせて、「データ」が最大のボトルネックであると結論付け、この問題の解決策を検討します。

AI 業界への応用: データウィービングは AI アプリケーショントレーニングのブレークスルーを支援します

1. 製品の背景

「最近、再びAIについて議論する声が上がっています。ここ2年間のAIに対する様子見姿勢とは異なり、ChatGPTの応用で本格的にAI時代が到来したと言う人も多く、製品と運用の学生は忙しいです私たちは ChatGPT が何であるか、安定拡散が何であるかなどを理解していますが、アルゴリズムエンジニアは頭がおかしくなり、狂ったように不平を言っていますリーダーたちは彼らに、できるだけ早く大規模なモデルを構築し、アルゴリズムモデルの指標をできるだけ早く作成し、ビジネスに役立てるアルゴリズムチームの前を通りかかったとき、Zhang Gong と Hu の作業員の次のような会話が聞こえました。

Gong Zhang: 胡兄弟、モデルのトレーニングはどうですか?

Hu Gong: ああ、一言で説明するのは難しいです。データがありません。最終的に事業部門にデータを提出しましたが、データが収集できなかったか、収集したデータがすべて異なっていて収集できませんでした。使われないの？

Zhang Gong: そうではないのは誰ですか? 私も同じです。最近、お客様の写真とビデオが合計 10 T を超えました。私たちはそれらを自分たちで送信するように求められました。私たちのチームは、データをインポートするだけで長い時間がかかりました。データ。

Hu Gong 氏は、データを迅速に取得して管理できるデータプラットフォームを会社が構築できれば、日常業務でのデータの使用がさらに便利になると述べました。「

上記の話を聞いて、私は最近、データウィービングの考え方に基づいて顧客向けに構築したデータ管理プラットフォームが顧客の課題を解決できると思い、すぐに詳細な製品紹介をして顧客に伝えました。「データウィービング」の設計コンセプトは、ユーザーが AI アプリケーションのトレーニングにおけるデータのボトルネックを突破できるようにするデータ管理プラットフォームを構築します。

2. AI トレーニングアプリケーションの難しさ

AI活用研修の客観的な難しさを人事の主観的な問題を除いてまとめると、以下の3点に集約されます。

AI 業界への応用: データウィービングは AI アプリケーショントレーニングのブレークスルーを支援します

高品質なデータ:

アルゴリズムのトレーニングで良い結果を達成するには、高品質なデータが第一条件ですが、高品質なデータを取得する方法には次のような困難があります。データの多様性: さまざまな形式の構造化/非構造化データがあり、さまざまなシステムから提供されるデータには統一された標準がありません。

効率的な計算能力:

とは、モデルをトレーニングするときに通常、大量の計算能力が必要になると同時に、その計算能力を効率的に使用することが難しいという事実を指します。

いつの時代でも、大規模なモデルが徐々に推進され、モデルのサイズはますます大きくなり、コンピューティング能力の需要も急速に増加しています。

データストレージが離散的であると、データへのアクセスが遅くなり、クラスターのコンピューティング能力があっても、並列処理が不可能な場合、コンピューティング能力は効率的に適用されません。

成熟したフレームワーク:

アプリケーションフレームワーク: 現在、国内外で多くの深層学習アルゴリズムフレームワークが存在しており、アルゴリズム研究 (Pytorch) と産業アプリケーション (Tensorflow) では、異なるフレームワークを選択する必要があります。

データ変換: 使用されるフレームワークや言語が異なるため、高品質のデータが用意されたとしても、異なる言語やトレーニングフレームワークに迅速に適応させる必要があります。

要約:

3. AI アプリケーションのボトルネックはデータですか? AIアプリケーション学習のボトルネックはアプリケーション側からのデータ集約ですが、そう思っているユーザーはどれくらいいるでしょうか？説明するにはデータが必要です。

人工知能アプリケーションにおける主な課題のランキング

AI 業界への応用: データウィービングは AI アプリケーショントレーニングのブレークスルーを支援します

人工知能モデルの開発中のデータ準備にどれだけの労力が費やされるか

AI 業界への応用: データウィービングは AI アプリケーショントレーニングのブレークスルーを支援します

注:

データは IDC 統計レポートから取得したものです

統計からわかるように、ユーザーの 29% は人工知能のアプリケーションにはトレーニングデータとテストデータが不足していると考えており、ユーザーの 85% はワークロードの少なくとも半分がデータの準備に費やされていると考えています。

要約: データが AI アプリケーションのボトルネックであることが証明されているため、統一された標準と、可用性の高い大量のデータへの高速アクセスを提供するために、データからエントリポイントを探すことを検討できます。 ポジショニングを考慮した商品企画を実施します。

4. 製品デザイン

エントリポイントとしてデータを見つけた後、データベースの製品を構築する方法を考えます。上記の分析に基づいて、製品ではデータベースの 3 つの問題を解決する必要があることがわかります。

質問 1:
データストレージ。ソースデータの保存場所は変更しないようにし、データストレージのコストを最小限に抑えてください。
質問 2:
高速アクセス。初期のデータクエリからデータ推論に変更し、必要なデータを迅速に検索することが最善です。
質問 3:
標準を統一して複雑なデータを標準化し、簡単に適用できるようにします。
従来のデータ管理プラットフォームをベースに、「データウィービングとナレッジグラフ」の概念を採用し、上記の課題に対処するための変革設計を実行します。各課題の突破ポイントは次のとおりです。

質問 1:
データウィービングのアイデアに基づいたデザイン
質問2:
ナレッジグラフの考え方に基づいた設計
質問 3:
統合データプラットフォームに基づく外部サービスの提供
次のステップは製品の詳細設計であり、製品のポジショニング、アプリケーションアーキテクチャ、差別化された競争力、構築パスから説明します。

1. 製品アーキテクチャ

1) 製品のポジショニング
データウィービングの考え方に基づいたナレッジグラフ型のデータ管理プラットフォームを提供し、高品質なデータを必要とする顧客にサービスを提供します。

注:
主な目的はAIアプリケーション学習におけるデータボトルネックの解決ですが、商品企画の観点からユーザーシナリオを拡大し、データサービスを必要とするあらゆるユーザーを対象としています。この商品の。
2) 製品アプリケーションアーキテクチャ
データ層から製品アプリケーション層まで、次の製品アーキテクチャを設計します:

データレイヤー: 構造化データと非構造化データだけでなく、さまざまな種類のデータへのアクセスをサポート AI トレーニング、特に複数の種類のデータを必要とするマルチモーダルアプリケーションには多くの種類のデータがあります。

ストレージ層: データの離散的な性質を考慮すると、さまざまな場所でのデータの保存をサポートし、クラウドデータからローカルデータへのアクセスをサポートする必要があります。

データ管理プラットフォーム: 今回設計するコア製品は主に 4 つの部分で構成されます。

データガバナンス: 従来のすべてのデータ管理プラットフォームが持つ共通モジュールで、データ分析、クリーニング、ルール定義などの機能を提供します。

データセキュリティ: これも従来のモジュールに属し、データの非感作化、安全なデータ送信などのデータセキュリティに関連する機能を提供します。

データ仮想化ストレージと分散キャッシュ: ここでは、データウィービングのアイデアを使用して、さまざまなプラットフォームからのデータをグリッド織りしてデータビューを形成し、同時に保存されたデータの論理情報のみを仮想化します。データの移行とコピーによりストレージコストが削減されますが、データを迅速に取得するために、頻繁にアクセスされるデータをキャッシュする分散キャッシュが設計で提供され、AI アルゴリズムトレーニング用のデータの I/O 速度と並列性が向上します。最大化コンピューティングクラスターの効率を向上させます。

ナレッジグラフ: データをクリーンアップし、ルールを定義し、ナレッジグラフトリプルの形式で保存し、ナレッジグラフの形式で外部クエリサービスを提供します。ナレッジグラフは、検索推論に役立ちます。特定のエンティティデータは別のエンティティデータに関連付けられています。たとえば、映画ビデオデータをクエリする場合、「人々は当惑への道を進んでいます」を検索できます。俳優「Wang Baoqiang」と「Xu Zheng」を通じて、「 Tai囧」が関連付けられます。関連付け推論によるクエリは、ユーザーがプラットフォームから必要なデータを迅速に抽出するのに役立ちます。

データサービス: プラットフォーム設計後、外部サービスの受け皿を確保する必要があるプロダクトの位置付けから始まり、主にtoB顧客に焦点を当てているため、ビジュアルサービスとAPIサービスの両方を考慮する必要がある。

API/SDK サービス: この記事で解決したい AI トレーニングアプリケーションのボトルネックなどの技術力を持つ企業またはユーザーの場合、AI プラットフォームとデータプラットフォームの API サービスを直接統合して、必要なデータを取得してクリーンアップし、そのデータはモデルのトレーニングに使用されます。
注:
通常、AI トレーニングプラットフォームには注釈付きデータが必要なので、最初に注釈プラットフォームに接続してから、データを AI トレーニングプラットフォームに直接送信できます。ビジュアルクエリ: もちろん、技術レベルのドッキングを考慮することに加えて、製品マネージャーや運用マネージャーなど、プラットフォーム上でのデータのクエリやデータのダウンロードなどのビジネスユーザーの行動も考慮する必要があります。プラットフォーム自体が提供するビジュアルクエリに依存します。データを取得してダウンロードした後、処理と生産のために他のビジネスプラットフォームにインポートされます。ビジュアルクエリはグラフ構造を採用し、Tianyancha スタイルを参照として使用します。特定のデータに関連するデータが同時に表示され、ユーザーの推論とクエリが容易になります。

イラスト: Tianyancha のスクリーンショットは学習の参考のみを目的としています

2.商品化

製品は発売されたら商品化できないため、商品企画段階で商品化の方向性を明確に検討する必要があり、次の 3 つの点を考慮する必要があります。

1) コンテンツの販売
Bエンド顧客向けに、「データマネジメントプラットフォーム」の標準製品と「テクニカルソリューション」の2種類の販売コンテンツを提供します。

標準製品: データ管理プラットフォームを持たないユーザーの場合、標準製品を購入し、データにアクセスし、ビジネスに適用するだけで、すぐに使用できるようになります。

技術ソリューション: デジタル変革トレンドの影響を受けて、B 側の企業顧客の多くは多かれ少なかれ独自のデータ管理プラットフォームを持つようになります。したがって、toB のもう 1 つのセールスポイントは、成熟した技術ソリューションを販売することであり、これは有益です。現時点では、「データを織り交ぜるナレッジグラフ」の設計思想に基づいて、顧客の製品を最下位層からサービス層まで変革する必要があります。

2) 販売方法
Bエンド商品の販売モデルとしては「チャネル連携」と「直販」が一般的ですが、本商品でもこれらの手法が採用されています。

チャネル連携: 都道府県や市区町村のエージェントが現地で推進するチャネル連携と、ISVモデルで技術力のある集中エージェントを見つけ、データ管理プラットフォームと自社製品を統合するチャネル連携の2種類を選択お互いの利点を補完し、それを外部に宣伝することができます。

直接販売: 製品の発売、広告プロモーション、顧客訪問などによる製品の直接販売。

3) 差別化の利点
新しい設計思想に基づいたデータ管理プラットフォームであるため、製品の販売プロセスにおいて、ユーザーをキャッチアップし、引き付けるためには、従来のデータ管理プラットフォームとの差別化された利点を反映する必要があります。 3 つの利点:

データウィービング: この製品は、データ管理にデータウィービングのアイデアを採用し、データ仮想化ストレージを使用してデータの物理ストレージコストを削減すると同時に、データキャッシュを使用してデータ取得のアクセス遅延を削減します。 AIアプリケーションのトレーニング中。

AI 機能: 従来のさまざまな条件によるデータプラットフォームの検索方法とは異なり、この製品はナレッジグラフビューの形式で直接表示され、ユーザーは簡単な条件を入力するだけで、システムは関連するデータ関係トポロジを返すことができます。 . 「データから人を見つける」を実現するために。

成熟した標準製品: 技術的なソリューションを販売することはできますが、成熟した標準製品がなければ顧客に感動を与えるのは難しいため、大規模で包括的なデータ管理プラットフォームを販売する従来のメーカーとは異なり、「小規模だが洗練された」ワンストップサービスを販売します。 . インテリジェントなデータ管理プラットフォーム。

3. 構築パス
製品の成熟には継続的な構築パスも必要ですこの製品の構築プロセスでは、「プロジェクト磨き製品」に基づいて、大きく 2 つの段階で構築されます。

プロジェクトの実施、技術の析出: 1/2 民営化データプロジェクトを実施することにより、データの織り込みとナレッジグラフ構築のアイデアがプロジェクトに析出し、技術の析出が達成されます。

プロダクト実装とブランドプロモーション：実際のプロジェクトからプロダクトを抽象化して反復実装し、プロダクト構築後はブランディングと対外プロモーションを実施します。
＃＃＃5。結論
この記事では、AI アプリケーショントレーニングのボトルネックに焦点を当て、AI トレーニングの難しさを要約し、IDC 分析レポートと組み合わせて、「データ」が最大のボトルネックであると結論付け、この問題の解決策を検討します。

データウィービングとナレッジグラフの概念に基づいて製品変革設計を実行し、「データ発見」のためのインテリジェントなデータ管理プラットフォームを製品のポジショニング、製品アーキテクチャ、アプリケーションシナリオなどの観点から詳細に紹介します。ビジネス推進のアイデアと構築パスは、AI トレーニングプラットフォーム、データアノテーションプラットフォームなどのデータアプリケーションシナリオ、さらには従来のデータ管理の変革とアップグレードが必要な顧客を支援します。製品。

将来的には、モデルの並列トレーニングの実際のプロセスにデータを組み込むことを拡張して、データ効率のさらなる実現可能性を追求するというアイデアをさらに検討していきます。
＃＃＃コラムニスト＃＃＃
Eric_d、誰もがプロダクトマネージャーのコラムニストです。 AI、ビッグデータ、その他の分野に情熱を持っており、要件分析、製品プロセス、アーキテクチャ設計の優れたスキルを持っています。また、ハイキングも好きです。

この記事は、みんながプロダクトマネージャーの「オリジナルインセンティブプラン」によって作成されました。

タイトル画像は、CC0 契約に基づいて Unsplash から提供されたものです。

以上がAI 業界への応用: データウィービングは AI アプリケーショントレーニングのブレークスルーを支援しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。