データサイエンスチームにおけるこれらの役割について知っておくべきこと-AI-php.cn

データエンジニア

機械学習とデータサイエンティスト

機械学習モデルの作成

結論

ホームページ

テクノロジー周辺機器

データサイエンスチームにおけるこれらの役割について知っておくべきこと

王林

Apr 11, 2023 pm 09:55 PM

機械学習データサイエンスデータ駆動型

翻訳者|李瑞

レビュアー|孫樹娟

世界的に有名なストリーミングサービスNetflixは、2017年に5つ星の評価システムを「親指」に変更しましたシンプルな「親指」の評価システム「ダウン」（好き）と「サムズダウン」（嫌い）。このシステムは一致率に基づいて映画を推奨できますが、これを不快に思う人もいます。では、映画芸術におけるすべての微妙なニュアンスを原始的な二項反応に還元するにはどうすればよいでしょうか? 高い評価を与えても、必ずしも彼らが実際に楽しんで観て楽しめる映画であるとは限りません。少なくともデータはそう言っています。では、Netflix のような企業ではデータ分析はどのように機能するのでしょうか?データサイエンスチームの役割は何ですか?

NETFLIX フィードバックシステムデータサイエンスチームにおけるこれらの役割について知っておくべきこと

ギブソンビドルは、Netflix の元副社長兼最高製品責任者です。消費者インサイトについて彼は、評価システム全体の変化につながった予期せぬ顧客の行動について説明しました。割合一致に換算すると、視聴者はアダム・サンドラーのコメディを楽しんでいるかもしれないが、その評価は星 3 つほど低いかもしれないが、視聴者はシンドラーのリストを見て気分が良くなるかもしれない、と Netflix は述べた。 , しかし、それは全体的な楽しみを増やすものではなく、加入者を満足させることがNetflixにとって非常に重要です。したがって、バイアスを避けるためにフィードバックシステムを簡素化しました。しかし、こうした顧客の洞察はそれ自体が素晴らしいものであり、データの使用を促進する文化と強力なデータインフラストラクチャがなければ不可能です。専門用語では、これをデータドリブン組織と呼びます。

データドリブン組織

「データドリブン」という人気の言葉を何度も聞いたことがあるかもしれませんが、実際には何を意味するのでしょうか? Netflix だけでも、ログインして映画のサムネイルをクリックすることから、ビデオを一時停止して字幕をオンにするまで、毎日 7,000 億件以上のイベントを記録しています。ユーザーはこれらすべてのデータを利用できます。 Tableau や Jupiter などの視覚化ツールを使用して誰でもアクセスできます。また、ユーザーがレポートの検査、レポートの生成、必要な情報のクエリを実行できる環境であるビッグデータポータルを通じてアクセスすることもできます。このデータは、小さなサムネイル (どのサムネイルを表示するかなど) から企業の意思決定 (Netflix がどの番組に投資して次に開始するかなど) に至るまで、ビジネス上の意思決定を行うために使用されます。

データドリブンな組織である企業は Netflix だけではありません。 Fortune 1000 企業の約 97% が人工知能やビッグデータなどのプロジェクトに投資していると推定されています。ここでは、実際のデータインフラストラクチャテクノロジーとそれを機能させるデータエンジニアについて見ていきます。

データインフラストラクチャテクノロジ

データインフラストラクチャがどのように機能するかを説明するために、技術者は、通常は液体または気体を輸送する「パイプライン」という用語を借用します。データパイプラインには、独自の開始点、終了点、および中間ステーションがあります。したがって、これは非常に適切な比喩です。データのソースは、保留ボタンをクリックしてページを更新することから、顧客サポートとの録音された会話、車両追跡装置から発電所のタービン振動センサーに至るまで、あらゆるものになる可能性があります。今日の世界では、データがなくても人々に何かを伝えることができる、生成できないものを言うのは実際には困難です。

データ項目が生成されると、データ項目はパイプラインに沿ってステージング領域に移動します。ここにすべての生データが保存されます。生データはまだ使用する準備ができていません。準備をしなければなりません。それが行われていない場合は、より微妙なビューを得るために、ギャップを埋めるか、形式を変更するか、さまざまなソースからのデータを組み合わせる必要があります。これらの操作が完了すると、構造化されたクリーンなデータが得られます。これらの操作はすべて自動的に実行されます。それらは 2 つの単語で説明されます。

抽出: データソースからデータを抽出し、ステージング領域に送信します。

変換: 使用するデータを準備してロードし、準備されたデータをさらに ETL にプッシュします。

準備されたすべてのデータは、別のストレージであるデータウェアハウスに保存されます。
データウェアハウス

ステージング領域とは異なり、データウェアハウスは、保存されているすべてのレコードが構造化され、すぐに使用できる場所です。図書館の分類システムと同じように、倉庫の情報を照会、視覚化、ダウンロードできます。このためには、ビジネスインテリジェンス (BI) ソフトウェアが必須です。エンドユーザーにデータを提示します。

データリストおよびビジネスアナリスト

データリストおよびビジネスアナリストは、基本的なタスクを実行する人々です。彼らはデータにアクセスし、調査し、視覚化し、ビジネスに意味を持たせようとします。たとえば、会社のマーケティングキャンペーンは成功していますか?パフォーマンスが最も悪いチャネルは何ですか?これらは感覚システムのように機能し、履歴データでビジネスをサポートし、経営陣と最終的には意思決定者に洞察を提供します。

データエンジニア

データエンジニアは、パイプライン全体の構築を担当します。ほとんどの技術者は、いわゆる「配管」に精通しています。パイプラインを介してソースから宛先にデータを移動し、途中でデータを変換します。彼らは、パイプラインアーキテクチャを設計し、ETL プロセスをセットアップし、ウェアハウスを構成し、レポートツールと接続します。たとえば、Airbnb には約 50 人のデータエンジニアがいます。企業は、いくつかの追加ルールを伴う、より複雑なアプローチに遭遇する場合があります。たとえば、データ品質エンジニアは、データが正しく取得され、変換されていることを確認します。偏ったデータや不正確なデータがあると、そこから意思決定を導き出す際にコストがかかりすぎます。 ETL のみを担当する別のエンジニアが存在する場合もあります。さらに、ビジネスインテリジェンス開発者は、レポート作成ツールと視覚化ツールの統合のみに重点を置いています。しかし、レポートツールは見出しを飾りません。データエンジニアは 21 世紀で最高の仕事ではありませんが、機械学習とデータサイエンティストはおそらく最高の仕事です。

機械学習とデータサイエンティスト

データサイエンティストは、データを収集し、次の四半期の会社の収益はいくらになるかなど、データに関する複雑な質問に答えるのが特に得意であることはよく知られています。 Uber で予約した車はいつ到着しますか? 「シンドラーのリスト」と「原石」が好きになる可能性はどのくらいですか?

これらの質問に答えるには、実際には 2 つの方法があります。データサイエンティストは、ビジネスアナリストやデータアナリストと同じように、ビジネスインテリジェンスツールとウェアハウスデータを扱います。したがって、倉庫からデータを取得します。データサイエンティストは、データレイクを使用することがあります。これは、非構造化不正データ用の別のタイプのストレージです。彼らは予測モデルを作成し、経営陣が使用できる予測を考え出します。収益見積もりを 1 回限りレポートするのには適していますが、Uber の予約のための車の到着時間を予測するのには役に立ちません。

機械学習の真の価値は、実稼働モデルが自動的に動作し、複雑な質問に対する答えを定期的に (場合によっては 1 秒あたり数千回) 生成できることであり、処理できる内容ははるかに複雑です。

機械学習モデルの作成

モデルが機能するためには、インフラストラクチャも必要です。場合によってはこれが大きな問題となることもあります。データサイエンティストは、データウェアハウスとデータレイク内のデータを探索し、実験を実施し、アルゴリズムを選択し、モデルをトレーニングして最終的な機械学習コードを生成します。これには、統計データベース、機械学習アルゴリズム、および主題分野についての深い理解が必要です。

SLAC の元データエンジニアリング責任者、ジョシュウィルズ氏は Twitter で、「データサイエンティストは、どのソフトウェアエンジニアリングよりも統計に優れた人々です。」

たとえば、発注者は ubereats を使用します。ソフトウェアの注文。ユーザーが注文を確認したら、アプリケーションは配達時間、注文者の場所、レストラン、配達予測機械学習モデルが展開されているサーバーに送信する注文データを推定する必要があります。しかし、これらのデータだけでは十分ではありません。このモデルは、レストランの平均準備時間やその他の詳細を含む追加データを別のデータベースから取得します。すべてのデータが利用可能になると、モデルは予測を注文者に返します。ただし、プロセスはこれで終わりではありません。予測自体は別のデータベースに保存されます。モデルのパフォーマンスを監視し、後で更新できるように分析ツールを通じてモデルを調査することを目的としています。このすべてのデータは、最終的にデータレイクとデータウェアハウスに保存されます。

実際、UberEats の食品注文サービスだけでも、同時に動作する数百の異なるモデルを使用して、推奨事項をスコアリングし、検索でレストランをランク付けし、配達時間を推定します。

結論

Foursquare の中核テクノロジーリーダーであるアダムワックスマン氏は、モデルトレーニングの自動化と継続的なトレーニングにより、将来的にはデータサイエンティストや機械学習エンジニアがいなくなると考えています。実稼働環境の構築、多くのデータサイエンティストの仕事がソフトウェア開発における一般的な職務になるでしょう。

元のタイトル: データサイエンスチームの役割 、著者: Anomi Ragendran

以上がデータサイエンスチームにおけるこれらの役割について知っておくべきことの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7554

CakePHP チュートリアル

1382

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

この記事では、SHAP: 機械学習のモデルの説明について説明します。 Jun 01, 2024 am 10:58 AM

機械学習とデータサイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

学習曲線を通じて過学習と過小学習を特定する Apr 29, 2024 pm 06:50 PM

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニングセットスコアとひどい検証セット/テストスコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニングセットとしての小さなデータセットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

透明！主要な機械学習モデルの原理を徹底的に分析！ Apr 12, 2024 pm 05:55 PM

平たく言えば、機械学習モデルは、入力データを予測された出力にマッピングする数学関数です。より具体的には、機械学習モデルは、予測出力と真のラベルの間の誤差を最小限に抑えるために、トレーニングデータから学習することによってモデルパラメーターを調整する数学関数です。機械学習には、ロジスティック回帰モデル、デシジョンツリーモデル、サポートベクターマシンモデルなど、多くのモデルがあります。各モデルには、適用可能なデータタイプと問題タイプがあります。同時に、異なるモデル間には多くの共通点があったり、モデル進化の隠れた道が存在したりすることがあります。コネクショニストのパーセプトロンを例にとると、パーセプトロンの隠れ層の数を増やすことで、それをディープニューラルネットワークに変換できます。パーセプトロンにカーネル関数を追加すると、SVM に変換できます。これです

宇宙探査と人類居住工学における人工知能の進化 Apr 29, 2024 pm 03:25 PM

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマートポインター、最新のスレッドライブラリ、SIMD 命令、サードパーティライブラリの使用、コーディングスタイルガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

説明可能な AI: 複雑な AI/ML モデルの説明 Jun 03, 2024 pm 10:08 PM

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

フラッシュアテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました May 30, 2024 pm 01:24 PM

MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニングプロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニングプロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。

See all articles

データ サイエンス チームにおけるこれらの役割について知っておくべきこと

データ エンジニア

機械学習とデータ サイエンティスト

機械学習モデルの作成

結論

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

データサイエンスチームにおけるこれらの役割について知っておくべきこと

データエンジニア

機械学習とデータサイエンティスト