データ管理が生成型 AI に与える影響

WBOY
リリース: 2023-06-07 11:15:36
転載
888 人が閲覧しました

2023 年は、誰もが話題にしているテクノロジー、ChatGPT によって推進される AI 時代の主流の始まりとして記憶される年となるでしょう。

ChatGPT のような生成 AI 言語モデルは、私たちの想像力をかき立てています。なぜなら、AI が本物の人間のように私たちに話しかけ、エッセイ、詩、その他の新しいコンテンツを生成するのを初めて見ることができるからです。クリエイティブを見つけてください。生成型 AI ソリューションには、イノベーションの速度、生産性、価値提供の効率を向上させる画期的な可能性がある可能性があります。制限があるにもかかわらず、データプライバシーと管理のベストプラクティスに対する認識には改善の余地がたくさんあります。

最近、テクノロジーとセキュリティの分野の多くの人が、人工知能テクノロジーの使用に関する理解と適切な規制のガードレールが欠如していることに警鐘を鳴らしています。 AI ツールの出力の信頼性、知的財産権、機密データの漏洩、プライバシーとセキュリティの問題の侵害について懸念が表明されています。

Samsung の ChatGPT に関する事件は、テクノロジー大手が誤って ChatGPT に秘密を漏洩したため、大きく報道されました。これを行っているのは Samsung だけではありません。Cyber​​haven の調査では、従業員の 4% が会社の機密データを大規模な言語モデルに入力していたことが判明しました。多くの人は、企業データを使用してモデルをトレーニングする場合、AI 企業がそのデータを別の機会に再利用する可能性があることに気づいていません。

サイバー犯罪のネタはもう必要ないかのように、サイバーセキュリティ インテリジェンス会社 RecordedFuture は次のように明らかにしました。「ChatGPT のリリースから数日以内に、欠陥はあるものの完全に機能するマルウェアを共有する多くの攻撃者を発見しました。ソーシャル エンジニアリングのチュートリアル、金儲けのスキームなど - すべて ChatGPT を使用することで実現できます。」

プライベート プライバシーの面では、ユーザーが ChatGPT のようなツールを使用してサインアップすると、次の情報にアクセスできます。 IP アドレス、ブラウザ設定、ブラウジング アクティビティは、今日の検索エンジンと同じだとインターネット アクセス エンジニアリング担当ディレクターのホセ ブライア氏は言います。しかし、本人の同意なしに政治的信念や性的指向を明らかにする可能性があり、恥ずかしい情報、さらにはキャリアを台無しにする情報が公開される可能性があるため、リスクはより高くなります。

これらの新しい AI テクノロジーを実装するには、より良い規制と標準が必要であることは明らかです。しかし、企業による人工知能の導入と安全な使用において重要な役割を果たす可能性があるデータ ガバナンスとデータ管理の重要な役割については議論が不足しています。

すべてはデータです

注目すべき 3 つの領域は次のとおりです:

独自の事前トレーニングについてAI モデルまたは大規模言語モデル (LLM)、データ ガバナンスと透明性の中心的な問題はトレーニング データにあります。 llm を使用した機械学習プログラムには、多くのソースからの大規模なデータ セットが含まれています。問題は、LLM がブラック ボックスであり、ソース データに対する透明性がほとんどないことです。私たちは情報源の信頼性について公平かつ公平に判断しますが、違法な個人を特定できる情報や詐欺的なデータを含めることは避けます。たとえば、オープン AI はソース データを共有しません。ワシントン・ポスト紙は、1500万のWebサイトを対象とするGoogleのC4データセットを分析したところ、扇動的な情報データや個人を特定できる情報データ、その他の疑わしいコンテンツを含む数十の不快なサイトを発見した。データ ガバナンスには、データ ソースの透明性が必要であり、これらのデータ ソースから得られる知識の有効性と信頼性が保証されます。たとえば、AI ボットが未検証のソースやフェイク ニュース サイトからのデータに基づいてトレーニングされ、その知識が企業の新しいポリシーや研究開発プログラムの一部となっている可能性があります。

現在、さまざまな人工知能ベンダーが、データ分離やデータ ドメインなど、ユーザー データのプライバシーを処理するためのさまざまな戦略を持っています。従業員は無意識のうちに LLM にデータを提供する可能性がありますが、このデータがモデルのナレッジ ベースに組み込まれることを認識していない可能性があります。企業が意図せずに企業秘密、ソフトウェア コード、個人データを一般に漏洩する可能性があります。一部の AI ソリューションは、事前トレーニングされたモデルからデータを除外することでデータ プライバシーを保護する API などの回避策を提供していますが、データのプライバシーを保ちながら事前トレーニングされたモデルをケース固有のデータで強化することが理想的なユースケースであるため、これでは価値が制限されます。事前トレーニングされた AI ツールにデータの「ドメイン」の概念を理解させることが、この問題に対する 1 つの解決策です。トレーニング データの「共通」フィールドは事前トレーニングに使用され、エンティティ間で共有されますが、「独自データ」に基づくトレーニング モデルの拡張は組織の境界内に安全に制限されます。データ管理により、これらの境界が作成され、維持されることが保証されます。

AI による二次的著作物は、AI プロセスと最終的にはデータ所有者に関連するデータ管理の 3 番目の領域をカバーします。 AI ボットを使用してコーディングの問題を解決するとします。通常、何かが正しく処理されないとバグやエラーが発生するため、誰が調査して修正する責任があるのか​​を知っています。しかし、AI の場合、たとえプロセスやソース データについて透明性がなかったとしても、AI に実行を依頼したタスクから生じるエラーや悪影響については、私の組織が責任を負います。機械を責めることはできません。どこかで間違いや悪い結果を犯したのは人間です。 IP についてはどうですか? 生成 AI ツールを使用して作成された作品の IP を所有していますか? 法廷でどのように弁護しますか? Harvard Business Review によると、アート界はすでに訴訟を起こし始めています。

今検討すべきデータ管理戦略

これらの初期段階では、不良データ、プライバシー、セキュリティなど、AI について何がわからないのかわかりません。 、知識 財産権およびその他の機密データセットに対するリスク。人工知能は、LLM、ロジックベースの自動化などの複数のアプローチを備えた幅広い分野でもあります。これらは、データ ガバナンス ポリシーとデータ管理の実践を組み合わせて検討されるトピックのほんの一部です:

    #監視戦略、ポリシー、

、リスクを軽減して結果を検証するための手順が確立されるまで、生成 AI の実験を一時停止してください。

    統合データ管理のガイドライン: データがどこに存在するかに関係なく、データをしっかりと理解することから始めます。機密の個人情報や顧客データはどこにありますか?どれくらいの IP データがあり、これらのファイルはどこにありますか?これらの種類のデータが AI ツールに誤って入力されないように使用状況を監視し、セキュリティやプライバシーの侵害を防ぐことができますか?

AI アプリケーションに不要なデータを提供することを避け、機密の独自データを共有しないでください。 IP と顧客データをロック/暗号化して共有を防ぎます。

    AI ツールがデータ ソースに対して透過的になる方法とその有無を理解します。

ベンダーはデータを保護できますか? Google はこの声明をブログで共有しましたが、その「方法」は不明です。 GenerativeAIAppBuilder で顧客サービス エクスペリエンスを構築する場合、プライベート データは機密に保たれ、より広範なベース モデル トレーニング コーパスでは使用されません。各 AI ツールの契約条件を注意深く確認して、データの機密性が保たれるかどうかを理解してください。

データを所有者、またはプロジェクトを委託した個人や部門の二次的著作物としてマークします。これは、会社によって作成された作品に対して最終的に責任を負う可能性があるため役立ちます。AI がどのように機能するかを知りたい場合

    ドメイン間でのデータの移植性を確保します。たとえば、チームは IP を売却し、特徴データを特定して、それを共通のデータにフィードすることを希望する場合があります。将来の使用に備えたトレーニング データセット。このプロセスの自動化と追跡が重要です。

    策定中の業界規制やガイダンスについて常に最新の情報を入手し、同業他社と連携してください。

    生成 AI プロジェクトに着手する前に、リスクとデータ管理を理解するために法律の専門家に相談してください。データ侵害、プライバシーと知的財産の侵害、悪意のある行為者、または誤った/誤った結果が発生した場合に従うべきプロセス

#企業における人工知能への実践的なアプローチ

人工知能は前例のない速度で発展しており、革新、コスト削減、ユーザー エクスペリエンスの向上に大きな可能性を秘めています。最も強力な Like ツールと同様に、人工知能も適切な環境で慎重に適用され、適切なデータが備えられている必要がありますセキュリティを確保するためのガバナンスおよびデータ管理措置 人工知能データ管理の分野では、明確な基準がなく、継続的な研究が必要です 人工知能を使用する場合、企業は適用する前に注意を払い、データ漏洩やデータ侵害について十分に理解していることを確認する必要がありますおよび潜在的なデータセキュリティリスク。

以上がデータ管理が生成型 AI に与える影響の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート