翻訳者|李瑞
レビュアー|孫樹娟
世界的に有名なストリーミングサービスNetflixは、2017年に5つ星の評価システムを「親指」に変更しましたシンプルな「親指」の評価システム「ダウン」(好き)と「サムズダウン」(嫌い)。このシステムは一致率に基づいて映画を推奨できますが、これを不快に思う人もいます。では、映画芸術におけるすべての微妙なニュアンスを原始的な二項反応に還元するにはどうすればよいでしょうか? 高い評価を与えても、必ずしも彼らが実際に楽しんで観て楽しめる映画であるとは限りません。少なくともデータはそう言っています。では、Netflix のような企業ではデータ分析はどのように機能するのでしょうか?データサイエンスチームの役割は何ですか?
NETFLIX フィードバック システム
抽出: データ ソースからデータを抽出し、ステージング領域に送信します。
変換: 使用するデータを準備してロードし、準備されたデータをさらに ETL にプッシュします。
データ エンジニアは、パイプライン全体の構築を担当します。ほとんどの技術者は、いわゆる「配管」に精通しています。パイプラインを介してソースから宛先にデータを移動し、途中でデータを変換します。彼らは、パイプライン アーキテクチャを設計し、ETL プロセスをセットアップし、ウェアハウスを構成し、レポート ツールと接続します。たとえば、Airbnb には約 50 人のデータ エンジニアがいます。企業は、いくつかの追加ルールを伴う、より複雑なアプローチに遭遇する場合があります。たとえば、データ品質エンジニアは、データが正しく取得され、変換されていることを確認します。偏ったデータや不正確なデータがあると、そこから意思決定を導き出す際にコストがかかりすぎます。 ETL のみを担当する別のエンジニアが存在する場合もあります。さらに、ビジネス インテリジェンス開発者は、レポート作成ツールと視覚化ツールの統合のみに重点を置いています。しかし、レポート ツールは見出しを飾りません。データ エンジニアは 21 世紀で最高の仕事ではありませんが、機械学習とデータ サイエンティストはおそらく最高の仕事です。
データ サイエンティストは、データを収集し、次の四半期の会社の収益はいくらになるかなど、データに関する複雑な質問に答えるのが特に得意であることはよく知られています。 Uber で予約した車はいつ到着しますか? 「シンドラーのリスト」と「原石」が好きになる可能性はどのくらいですか?
これらの質問に答えるには、実際には 2 つの方法があります。データ サイエンティストは、ビジネス アナリストやデータ アナリストと同じように、ビジネス インテリジェンス ツールとウェアハウス データを扱います。したがって、倉庫からデータを取得します。データ サイエンティストは、データ レイクを使用することがあります。これは、非構造化不正データ用の別のタイプのストレージです。彼らは予測モデルを作成し、経営陣が使用できる予測を考え出します。収益見積もりを 1 回限りレポートするのには適していますが、Uber の予約のための車の到着時間を予測するのには役に立ちません。
機械学習の真の価値は、実稼働モデルが自動的に動作し、複雑な質問に対する答えを定期的に (場合によっては 1 秒あたり数千回) 生成できることであり、処理できる内容ははるかに複雑です。
モデルが機能するためには、インフラストラクチャも必要です。場合によってはこれが大きな問題となることもあります。データ サイエンティストは、データ ウェアハウスとデータ レイク内のデータを探索し、実験を実施し、アルゴリズムを選択し、モデルをトレーニングして最終的な機械学習コードを生成します。これには、統計データベース、機械学習アルゴリズム、および主題分野についての深い理解が必要です。
SLAC の元データ エンジニアリング責任者、ジョシュ ウィルズ氏は Twitter で、「データ サイエンティストは、どのソフトウェア エンジニアリングよりも統計に優れた人々です。」
たとえば、発注者は ubereats を使用します。ソフトウェアの注文。ユーザーが注文を確認したら、アプリケーションは配達時間、注文者の場所、レストラン、配達予測機械学習モデルが展開されているサーバーに送信する注文データを推定する必要があります。しかし、これらのデータだけでは十分ではありません。このモデルは、レストランの平均準備時間やその他の詳細を含む追加データを別のデータベースから取得します。すべてのデータが利用可能になると、モデルは予測を注文者に返します。ただし、プロセスはこれで終わりではありません。予測自体は別のデータベースに保存されます。モデルのパフォーマンスを監視し、後で更新できるように分析ツールを通じてモデルを調査することを目的としています。このすべてのデータは、最終的にデータ レイクとデータ ウェアハウスに保存されます。
実際、UberEats の食品注文サービスだけでも、同時に動作する数百の異なるモデルを使用して、推奨事項をスコアリングし、検索でレストランをランク付けし、配達時間を推定します。
Foursquare の中核テクノロジー リーダーであるアダム ワックスマン氏は、モデル トレーニングの自動化と継続的なトレーニングにより、将来的にはデータ サイエンティストや機械学習エンジニアがいなくなると考えています。実稼働環境の構築、多くのデータサイエンティストの仕事がソフトウェア開発における一般的な職務になるでしょう。
元のタイトル: データ サイエンス チームの役割 、著者: Anomi Ragendran
以上がデータ サイエンス チームにおけるこれらの役割について知っておくべきことの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。