「デジタル時代では、問題を定量的に評価でき、機械学習によって目標に向けてよりインテリジェントかつ効率的な最適化が可能になります。」
4 月 18 日、火山はエンジンがリリースされました DPU などの一連のクラウド製品を開発し、企業顧客が大規模な AI モデルをより適切にトレーニングできるようにサポートする機械学習プラットフォームの新バージョンをリリースします。 ByteDance の副社長である Yang Zhenyuan 氏は、「Douyin の機械学習実践」というテーマで機械学習についての理解を共有しました。
Yang Zhenyuan は、機械学習システムの核となる競争力は、各実験を迅速かつ安価に実行できることであると考えています。アルゴリズムエンジニアは自分の業務に集中し、非常に低コストで試行錯誤を続けることでのみ、ビジネスの機敏な反復と革新を実現できます。同氏は、「Volcano Engineの機械学習プラットフォームは社内外で統一されている。Volcano Engineの顧客とDouyinは同じプラットフォームを使用している。社内で磨かれたこれらのテクノロジーがより多くの顧客にサービスを提供し、全員がインテリジェントなイノベーションを起こすのをサポートできることを願っている。」
以下は楊振源氏のスピーチ全文です:
##おはようございます!ご存知のとおり、Douyin とその他の企業は Volcano Engine の内部顧客であり、すべて Volcano Engine クラウド上で実行されています。今日は、Volcano Engine が Douyin の機械学習の使用をどのようにサポートしているかという、社内業務における実際の経験を共有します。 まず、なぜ機械学習について話す必要があるのかについて話しましょう。どのようなシナリオで、どのような状況で機械学習システムを使用する必要があるのでしょうか?機械学習を使用する際の課題は何ですか?これらの課題をどのように解決したのでしょうか? 私は、機械学習で最も重要なことは、問題をデジタル化することだと思います。まずデジタル化してから、問題を定量的に評価できるようにします。問題を定量的に評価できれば、機械学習手法を使用して問題をインテリジェント化し、さらに最適化することができます。
以前、何人かの友人が私に「ジェンユアンさん、モデルを作るのを手伝ってくれませんか?」と尋ねてきたので、このモデルを何に使いたいのか尋ねてみました。実際、彼自身はそれについて明確に考えていませんでした。
機械学習の活用について、いくつかの例をあげて説明したいと思います。
たとえば、パフォーマンス広告では、マーチャントにとって、妥当な金額の顧客を見つけることができるでしょうか?プラットフォーム側としては、広告枠があればその位置に最適な広告を掲載できるのか?この問題をどう評価するか?これは非常にシンプルで、コンバージョン率を確認するだけなので、その目標を明確に定義できます。
目標を明確に定義できれば、A/B 実験を実施し、どの方法がより優れているかを判断し、機械学習を使用してさらに最適化することができます。結局のところ、効果的な広告を行うユーザーを選択するなど、手動の方法を使用する方が、機械学習を使用するよりも優れた成果を上げるのは難しいことがよくあります。
もう 1 つの例は、クーポンの発行です。同じお金をどのユーザーに分配すれば、プラットフォームに長期的な保持をもたらすことができるでしょうか?これは正確に定量化して評価できる質問でもあります。このような問題に対して、どのようなアルゴリズムを使用し、どのような機械学習を使用して最適化するかを考えることができます。
輸送力派遣は誰もが知っている分野であり、受注率という定量的な評価も可能です。マッチングが良くないと、ドライバーと乗客を効果的にマッチングすることができません。自動運転については詳しく説明しませんが、この分野での効果を評価したい場合、実際には安全性、時間、快適性など、さらに多くの側面があります。
ここまで述べましたが、中心的な問題は、問題を明確に定義し、まずデジタル化してからインテリジェントにできるようにすることです。
#機械学習を使ってインテリジェンスを作成すると、どのような問題が発生するでしょうか?主な問題は 2 つあり、1 つ目は複雑であること、2 つ目は高価であることです。なぜ複雑なのでしょうか?機械学習ソフトウェア スタックは非常に奥深いため、PyTorch プラットフォーム、TensorFlow、その他多くのプラットフォームを含むプラットフォームが必要です。これには、フレームワーク、オペレーティング システム、および基盤となるハードウェアも関係します。最近みんなで出かけると必ずGPUカードを何枚持っているかをお互いに聞き合うのですが、持っていない場合は挨拶するのも恥ずかしいです。しかし実際には、これらのカードの使用効率がどのようなものであるかを知らない人も多いです。したがって、機械学習のソフトウェア スタックは非常に深く複雑であり、すべてのリンクが正しく適切に実行される必要があります。
高価な問題について話しましょう。人件費は高価であり、非常に優れたアルゴリズム エンジニアは高価で、見つけるのは簡単ではありません。人材が高価であることに加えて、データも高価であり、高品質のデータには多額の費用がかかります。ハードウェアは言うまでもなく、高性能 GPU の価格は誰もが知っています。
つまり、機械学習は複雑で高価なものです。では、Douyin はこの複雑で高価な問題にどのように対処し、機械学習をより効果的に活用してビジネス開発を支援しているのでしょうか?
私たちのプラットフォームを簡単に紹介しますと、主に 2 つのプラットフォームがあり、1 つは推奨広告プラットフォームで、もう 1 つは CV (Computer Vision) や NLP を含む一般的なプラットフォームです。 (自然言語処理)プラットフォームなど。
推奨プラットフォーム。当社には多くの製品があり、さまざまなシナリオでモデルを頻繁にトレーニングしているため、毎週何万ものモデルがトレーニングされています。 CV/NLP プラットフォームでは、モデル トレーニングの数がさらに多くなり、トレーニング規模は 1 週間あたり約 200,000 モデルになります。さらに、これら 2 つのプラットフォームでは毎日多数のオンライン サービスが実行されています。 ######例えば。たとえば、Douyin のレコメンデーション システムには多くのモデルがあり、そのうちの 1 つはトレーニングに 15 か月のサンプルを必要とするため、トレーニング データを 15 か月にわたって継続的に構築する必要があり、このデータ量は非常に膨大です。しかし、当社の機械学習プラットフォームでは、このモデルのトレーニングを完了するのに必要な時間はわずか 5 時間で、コストの計算値はわずか 5,000 元です。アルゴリズム エンジニアの場合、午前中にモデルをトレーニングし、午後にオンラインで AB 実験を行うことで、製品の反復効率が大幅に向上します。
機械学習がうまくいっているのかどうかは、この三角形で表現できると思いますが、その中で最も重要なのはアルゴリズムです。アルゴリズムが有効性において主導権を握る場合、ビジネスに大きな価値をもたらす可能性があります。 アルゴリズム効果のニーズをサポートするものは 2 つあります。1 つはハードウェアの ROI、もう 1 つは人間の ROI です。
#ハードウェア ROI は、ユニット モデルあたりのコストを指します。市場競争では、他人が1万元かけて1つのモデルを作れば、自分も1万元かけて同じようなモデルを10個作れば、競争は安定する。人間の ROI とは、強力なアルゴリズム エンジニアを採用することを指しますが、その可能性を最大限に発揮できるかどうかは、主にシステムが新しいアイデアを簡単かつ迅速に試せるようサポートできるかどうかにかかっています。
ハードウェアの ROI を改善するにはどうすればよいですか?タイドとミックスパート、これらは私たちが一般的に使用する方法の一部です。本質的には、デバイスの使用率をいかに向上させるかであり、クラウドネイティブの基本的な考え方でもあります。さまざまなタスクを混合し、互いのピークをずらし、インテリジェントなスケジューリングによって高い使用率で実行することで、リソースの使用率が大幅に向上し、各実験のコストが削減されます。ハードウェアのコストに加えて、機械学習インフラストラクチャが使いやすいかどうかという非常に重要なポイントもあります。冗談です: 数学をやっている人の多くは、あなたがコンピューター サイエンス、特にディープ ラーニングをやっているのが好きではありません。彼らは、あなたたちが「万能薬を作る」ためにここにいると言います。あなたは、なぜ自分のものが優れているのか、そしてなぜそうするのかを説明できないことがよくあります。実験を続ける必要がありますか?しかし、現実的に考えると、実験と試みを続ける必要があり、この分野における多くの新しい発見は、継続的な試みによって得られます。
あらゆる試みをいかに速く、より安くするか、これが競争力の核心です。完全なモデルを一度に達成することは困難です。#Volcano Engine がしなければならないことは、プラットフォーム上で適切な仕事をすることです。ご覧のとおり、データ処理、モデルのトレーニング、評価、オンライン、AB テストのプロセス全体がプラットフォーム全体で統合されています。
アルゴリズム エンジニアは、さまざまなリンクと繰り返し通信し、さまざまなビジネスを接続する必要がなくなり、自分の作業に集中できます。別の例を見てみましょう。これは非常に興味深い特殊効果 (TikTok AI ペイント) です。多くの友人が使用していると思います。昨年末頃からこの特撮が特に話題になりました。 Douyin がこの特殊効果を作るためにどれだけの人的資源を投資したと思いますか?多くの人は、アルゴリズム エンジニアが 1 人を投資し、プラットフォーム上でいくつかの研究コードを書き、モデルのトレーニングを完了するのに約 1 週間かかり、いくつかの調整を経てオンラインで公開されたとは考えていなかったかもしれません。
当時、この製品のピーク トラフィックは 200QPS であると推定され、2000QPS でリリースする予定でしたが、予想外にリリースから数時間以内にいっぱいになってしまいました。私たちはすぐに多くの拡張を行い、容量は短期間で 10 倍に拡張され、20,000 QPS をサポートしました。
プロセス全体を見ることができ、参加人数も非常に少なく、拡張効率も非常に高いです。モデルのトレーニングは費用がかかると多くの人が言いますが、実際、長期的には推論のコストがトレーニングよりも大幅に高くなります。 Volcano Engine プラットフォーム上の AI ペイント モデルの推論効率は、ネイティブの Pytorch モデルよりも約 5 倍高速です。オンライン化後は、対象を絞った最適化が行われ、さらに高速化され、約 10 倍と桁違いの改善が見られます。
このようなプラットフォームのサポートにより、エンジニアは進歩の追跡であっても、先駆的なイノベーションであっても、さまざまなアイデアを素早く試すことができ、迅速に実行できます。
最後に、Douyin、Toutiao、Dianchedi などの一部のアプリで、「Volcano Engine はコンピューティング サービスを提供します」という画面が表示されることがわかります。 私たちが話している機械学習プラットフォームは内部と外部で統合されており、Volcano Engine の顧客と Douyin は同じプラットフォームを使用しています。 社内で磨き上げたこれらのテクノロジーがより多くのお客様に提供され、皆様のインテリジェントなイノベーションをサポートできることを願っています。皆さん、ありがとうございました。
以上がByteDance Yang Zhenyuan: Douyin が機械学習をどのように活用しているかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。