2023 年は、誰もが話題にしているテクノロジー、ChatGPT によって推進される AI 時代の主流の始まりとして記憶される年となるでしょう。
ChatGPT のような生成 AI 言語モデルは、私たちの想像力をかき立てています。なぜなら、AI が本物の人間のように私たちに話しかけ、エッセイ、詩、その他の新しいコンテンツを生成するのを初めて見ることができるからです。クリエイティブを見つけてください。生成型 AI ソリューションには、イノベーションの速度、生産性、価値提供の効率を向上させる画期的な可能性がある可能性があります。制限があるにもかかわらず、データプライバシーと管理のベストプラクティスに対する認識には改善の余地がたくさんあります。
最近、テクノロジーとセキュリティの分野の多くの人が、人工知能テクノロジーの使用に関する理解と適切な規制のガードレールが欠如していることに警鐘を鳴らしています。 AI ツールの出力の信頼性、知的財産権、機密データの漏洩、プライバシーとセキュリティの問題の侵害について懸念が表明されています。
Samsung の ChatGPT に関する事件は、テクノロジー大手が誤って ChatGPT に秘密を漏洩したため、大きく報道されました。これを行っているのは Samsung だけではありません。Cyberhaven の調査では、従業員の 4% が会社の機密データを大規模な言語モデルに入力していたことが判明しました。多くの人は、企業データを使用してモデルをトレーニングする場合、AI 企業がそのデータを別の機会に再利用する可能性があることに気づいていません。
サイバー犯罪のネタはもう必要ないかのように、サイバーセキュリティ インテリジェンス会社 RecordedFuture は次のように明らかにしました。「ChatGPT のリリースから数日以内に、欠陥はあるものの完全に機能するマルウェアを共有する多くの攻撃者を発見しました。ソーシャル エンジニアリングのチュートリアル、金儲けのスキームなど - すべて ChatGPT を使用することで実現できます。」
プライベート プライバシーの面では、ユーザーが ChatGPT のようなツールを使用してサインアップすると、次の情報にアクセスできます。 IP アドレス、ブラウザ設定、ブラウジング アクティビティは、今日の検索エンジンと同じだとインターネット アクセス エンジニアリング担当ディレクターのホセ ブライア氏は言います。しかし、本人の同意なしに政治的信念や性的指向を明らかにする可能性があり、恥ずかしい情報、さらにはキャリアを台無しにする情報が公開される可能性があるため、リスクはより高くなります。
これらの新しい AI テクノロジーを実装するには、より良い規制と標準が必要であることは明らかです。しかし、企業による人工知能の導入と安全な使用において重要な役割を果たす可能性があるデータ ガバナンスとデータ管理の重要な役割については議論が不足しています。
独自の事前トレーニングについてAI モデルまたは大規模言語モデル (LLM)、データ ガバナンスと透明性の中心的な問題はトレーニング データにあります。 llm を使用した機械学習プログラムには、多くのソースからの大規模なデータ セットが含まれています。問題は、LLM がブラック ボックスであり、ソース データに対する透明性がほとんどないことです。私たちは情報源の信頼性について公平かつ公平に判断しますが、違法な個人を特定できる情報や詐欺的なデータを含めることは避けます。たとえば、オープン AI はソース データを共有しません。ワシントン・ポスト紙は、1500万のWebサイトを対象とするGoogleのC4データセットを分析したところ、扇動的な情報データや個人を特定できる情報データ、その他の疑わしいコンテンツを含む数十の不快なサイトを発見した。データ ガバナンスには、データ ソースの透明性が必要であり、これらのデータ ソースから得られる知識の有効性と信頼性が保証されます。たとえば、AI ボットが未検証のソースやフェイク ニュース サイトからのデータに基づいてトレーニングされ、その知識が企業の新しいポリシーや研究開発プログラムの一部となっている可能性があります。
現在、さまざまな人工知能ベンダーが、データ分離やデータ ドメインなど、ユーザー データのプライバシーを処理するためのさまざまな戦略を持っています。従業員は無意識のうちに LLM にデータを提供する可能性がありますが、このデータがモデルのナレッジ ベースに組み込まれることを認識していない可能性があります。企業が意図せずに企業秘密、ソフトウェア コード、個人データを一般に漏洩する可能性があります。一部の AI ソリューションは、事前トレーニングされたモデルからデータを除外することでデータ プライバシーを保護する API などの回避策を提供していますが、データのプライバシーを保ちながら事前トレーニングされたモデルをケース固有のデータで強化することが理想的なユースケースであるため、これでは価値が制限されます。事前トレーニングされた AI ツールにデータの「ドメイン」の概念を理解させることが、この問題に対する 1 つの解決策です。トレーニング データの「共通」フィールドは事前トレーニングに使用され、エンティティ間で共有されますが、「独自データ」に基づくトレーニング モデルの拡張は組織の境界内に安全に制限されます。データ管理により、これらの境界が作成され、維持されることが保証されます。
AI による二次的著作物は、AI プロセスと最終的にはデータ所有者に関連するデータ管理の 3 番目の領域をカバーします。 AI ボットを使用してコーディングの問題を解決するとします。通常、何かが正しく処理されないとバグやエラーが発生するため、誰が調査して修正する責任があるのかを知っています。しかし、AI の場合、たとえプロセスやソース データについて透明性がなかったとしても、AI に実行を依頼したタスクから生じるエラーや悪影響については、私の組織が責任を負います。機械を責めることはできません。どこかで間違いや悪い結果を犯したのは人間です。 IP についてはどうですか? 生成 AI ツールを使用して作成された作品の IP を所有していますか? 法廷でどのように弁護しますか? Harvard Business Review によると、アート界はすでに訴訟を起こし始めています。
これらの初期段階では、不良データ、プライバシー、セキュリティなど、AI について何がわからないのかわかりません。 、知識 財産権およびその他の機密データセットに対するリスク。人工知能は、LLM、ロジックベースの自動化などの複数のアプローチを備えた幅広い分野でもあります。これらは、データ ガバナンス ポリシーとデータ管理の実践を組み合わせて検討されるトピックのほんの一部です:
#企業における人工知能への実践的なアプローチ
以上がデータ管理が生成型 AI に与える影響の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。