マイクロソフトの勝利です!数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能
2021 年 11 月、Microsoft はマルチモーダル ビジョンの基本モデル Florence (Florence) をリリースしました。これは 40 以上のベンチマーク タスクを網羅し、分類、ターゲット検出、VQA、写真による会話、ビデオ検索、およびアクション認識に簡単に適用できました。複数のタスクを待ちます。
1 年半後、フローレンスは正式に商業段階を開始しました。
フローレンスには何ができるでしょうか?
最近、マイクロソフト グローバル人工知能最高技術責任者の黄雪東氏は、マイクロソフトの Florence 基本モデルのパブリック プレビュー バージョンを正式に発表しました。
Florence モデルは、数十億のテキストと画像のペアでトレーニングされ、Azure コグニティブ ビジョン サービスに統合されており、「価格」と「パフォーマンス」の点で「運用環境」の要件に達しています。現在、無料トライアル段階です。
改善されたビジョン サービスにより、開発者は、さまざまな業界にわたって、市場に即応した責任ある最先端のコンピュータ ビジョン アプリケーションを作成できるようになります。お客様は、データをシームレスにデジタル化、分析し、自然言語インタラクションに接続することで、画像やビデオのコンテンツからより正確な情報を導き出し、有害なコンテンツからユーザーを保護し、セキュリティを強化し、インシデント対応を迅速化することができます。
Florence の実際の機能も非常に強力で、ユーザーは Vision Studio で「すぐに使える」機能を体験できます。
エクスペリエンス URL: https://portal.vision.cognitive.azure.com/gallery/featured
具体的な内容:
高密度キャプション: デジタル コンテンツをサポートするために、豊富な説明、デザインの提案、アクセス可能な代替テキスト、検索エンジンの最適化、スマートな写真管理などを自動的に提供します。
画像の取得: 自然言語クエリを使用して画像とテキストの類似性をシームレスに測定し、検索の推奨事項と広告を改善します。
背景の削除: 人物や物体を元の背景から簡単に分離し、他の背景シーンに置き換えることで、画像の外観と雰囲気を変えることができます。
モデルのカスタマイズ: 使用可能なイメージが少数であっても、独自のビジネス ニーズに高い精度で適合できるカスタム モデルを提供するコストと時間を削減します。
ビデオの概要: 人間と同じ直感的な方法でビデオ コンテンツを検索して操作し、考えたり書いたりできます。関連するコンテンツの検索に役立ち、追加のメタデータは必要ありません。
Reddit コンシューマー製品プロダクト マネージャーの Tiffany Ong 氏は、Microsoft の Vision テクノロジを通じて、ユーザーが Reddit 上のコンテンツを見つけて理解することが容易になると述べました。
新しく作成された画像の説明により、ユーザーは Reddit にアクセスしやすくなり、画像の説明を使用して記事の検索結果が向上し、Reddit ユーザーがサイト上の画像を探索したり、会話に参加したり、最終的にはつながりを構築したりする機会が増えます。コミュニティの感覚。
Florence の画像ごとに最大 10,000 個のタグを生成できるため、Reddit は画像内のオブジェクトの数をより詳細に制御できるようになり、より適切な画像説明を生成するのに役立ちます。
Microsoft 365
Microsoft データ センターに加えて、Microsoft は Microsoft 365 アプリケーション (Teams、PowerPoint、Outlook、Word、Designer、OneDrive など) ビジョン サービスも改善しています。能力。
画像セグメンテーション機能の助けを借りて、Teams はデジタル スペースでのイノベーションを推進し、仮想会議エクスペリエンスを新たな高みに引き上げています。
PowerPoint、Outlook、Word では、テキストを自動的に置き換える画像の説明によりアクセシビリティが向上します。
Microsoft Designer と OneDrive は、画像の説明、画像検索、背景生成を改善することで、画像の検索と編集を簡素化しています。
Microsoft データ センターは、ビジョン サービスを活用してセキュリティとインフラストラクチャの信頼性を強化しています。
LinkedIn のアクセシビリティ エンジニアリング ディレクターであるジェニソン アスンコン氏は、LinkedIn の投稿の 40% 以上に少なくとも 1 つの画像が含まれており、これは特に重要であると述べています。視覚障害者または低所得者 晴眼者の場合、視覚サービスはすべてのユーザーに平等に読書へのアクセスを提供し、オンライン会話に参加できるようにします。
Azure Visual Cognitive Service を使用すると、LinkedIn は画像説明の自動編集と代替テキストのサポートを提供できます。これは新しいエクスペリエンスです。
私がこれに興奮しているだけでなく、同僚がイベントに参加している自分たちの写真を共有しました。その写真には LinkedIn CEO の Ryan Roslansky が写っていました。
責任あるイノベーションを行う
責任ある人工知能の原則を確認して、マイクロソフトが世界のアクセシビリティを向上させる人工知能システムの開発にどのように取り組んでいるかを学びましょう。
マイクロソフトは、組織が人工知能を最大限に活用できるよう支援することに尽力しており、より持続可能でより良い世界の構築に取り組む人々を支援するテクノロジー、リソース、専門知識を提供するプロジェクトに多額の投資を行っています。 . 人間の能力の世界へのより安全かつ簡単なアクセス。
マルチモーダルは未来です
Microsoft や Google を含む多くの大手テクノロジー企業は、人工知能の開発方向に関して驚くほど一貫しており、「マルチモーダル モデル」が人工知能を向上させる鍵であると信じています。機能を実現するための最良の方法は、単一のモデルが言語、画像、ビデオ、オーディオを同時に理解でき、ビデオへのテキスト説明の追加など、単一モーダル モデルでは完了できないタスクを完了できることです。
画像を理解するために 1 つのモデルを使用し、言語を理解するために別のモデルを使用するなど、同じ目的を達成するために複数の「シングルモーダル」モデルをつなぎ合わせてみてはいかがでしょうか?
最初の理由は、他のモダリティによって提供される背景情報を利用すると、状況によってはマルチモーダル モデルの方が同じタスクでシングルモーダル モデルよりも優れたパフォーマンスを発揮できるためです。
たとえば、画像、価格データ、購入履歴を理解する AI アシスタントは、「価格データだけを理解する」AI よりも、より適切にパーソナライズされた製品の推奨を提供できます。
そして、計算の観点から見ると、マルチモーダル モデルは多くの場合より効率的であり、データ処理の速度を向上させ、バックエンドのコストを削減できます。
どの事業会社もコスト削減と効率化に熱心であることは間違いありません。
Florence は、画像、ビデオ、言語、およびこれらのモダリティ間の関係を理解できるため、画像とテキストの類似性の測定、セグメント化など、単一のモダリティでは完了できないいくつかのタスクを実行できます。写真オブジェクトを選択し、別の背景に貼り付けます。
ほぼすべての AI モデル トレーニングは、データ著作権の問題に直面しています。Azure AI のコーポレート バイス プレジデント (CVP) であるジョン モンゴメリー氏は、「フローレンスのトレーニング データ」については、多くの情報を明らかにせず、フローレンスがそれを使用したとだけ述べました。は、パートナーからのデータを含む「責任を持って取得した」データソースであり、さらにモンゴメリ氏は、潜在的に問題のあるコンテンツがトレーニングデータから削除されており、これは公開トレーニングデータセットの共通の特徴でもあると述べた。
Montgomery は、大規模なベース モデルを使用する場合、最も重要なことはトレーニング データ セットの品質を確保し、各ビジョンに適応するモデルの基礎を作成することであると考えています。各ビジョン タスクに合わせて調整されたモデルは、公平性、敵対的、困難なケースについてテストされ、Azure Open AI Service および DALL-E と同じコンテンツ モデレーション サービスを実装します。
将来的には、消費者はフローレンスを使用して、製造プロセスの欠陥を検出したり、小売店でのセルフチェックアウトを可能にしたりするなど、さらに多くのことを実行できるようになります。
ただし、モンゴメリ氏は、これらのユースケースでは実際にはマルチモーダル ビジョン モデルは必要ないと指摘していますが、マルチモーダルによってプロセスに価値のある何かが追加される可能性があると主張しています。
Florence は、画像とテキストの間でシンプルかつ高品質な翻訳プロセスが実現されると、未知の可能性を持つまったく新しい世界を開く「完全に再考された」ビジュアル モデルです。
お客様は、大幅に改善された画像検索を体験し、画像モデルや視覚モデル、言語や音声などの他のモデル タイプをまったく新しいタイプのアプリケーションにトレーニングし、カスタム モデルの品質を簡単に向上させることができます。
以上がマイクロソフトの勝利です!数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Bing は Microsoft が提供するオンライン検索エンジンで、検索機能が非常に強力で、国内版と海外版の 2 つの入り口があります。これら 2 つのバージョンへの入り口はどこですか?国際版にアクセスするにはどうすればよいですか?以下で詳細を見てみましょう。 Bing 中国語版 Web サイトの入り口: https://cn.bing.com/ Bing 国際版 Web サイトの入り口: https://global.bing.com/ Bing 国際版にアクセスするにはどうすればよいですか? 1. まず URL を入力して Bing を開きます: https://www.bing.com/ 2. 国内バージョンと国際バージョンのオプションがあることがわかりますので、国際バージョンを選択してキーワードを入力するだけです。

4 月 18 日のニュース: 最近、Canary チャネルを使用している Microsoft Edge ブラウザーの一部のユーザーが、最新バージョンにアップグレードした後、パスワードを自動的に保存するオプションが無効になっていることに気づいたと報告しました。調査の結果、これは機能のキャンセルではなく、ブラウザのアップグレード後の軽微な調整であることが判明しました。 Edge ブラウザを使用して Web サイトにアクセスする前に、Web サイトのログイン パスワードを保存するかどうかを尋ねるウィンドウがブラウザにポップアップ表示されるとユーザーが報告しました。保存を選択すると、Edge は次回ログインするときに保存されたアカウント番号とパスワードを自動的に入力するため、ユーザーは非常に便利になります。しかし、最新のアップデートはデフォルト設定を変更する微調整に似ています。ユーザーはパスワードを保存することを選択し、設定で保存されたアカウントとパスワードの自動入力を手動でオンにする必要があります。

8 月 14 日のこのサイトのニュースによると、今日の 8 月のパッチ火曜日イベント日に、Microsoft は 22H2 および 23H2 用の KB5041585 更新プログラム、および 21H2 用の KB5041592 更新プログラムを含む、Windows 11 システム用の累積的な更新プログラムをリリースしました。 8 月の累積更新プログラムで上記の機器がインストールされた後、このサイトに添付されるバージョン番号の変更は次のとおりです。 21H2 機器のインストール後、機器のインストール後、バージョン番号は Build22000.314722H2 に増加しました。バージョン番号は Build22621.403723H2 に増加しました。 装置のインストール後、バージョン番号は Build22631.4037 に増加しました。 Windows 1121H2 の更新プログラムの主な内容は次のとおりです。 改善: 改善されました。

6 月 3 日のニュースによると、Microsoft はすべての Windows 10 ユーザーに全画面通知を積極的に送信し、Windows 11 オペレーティング システムへのアップグレードを奨励しています。この移行には、ハードウェア構成が新しいシステムをサポートしていないデバイスが含まれます。 2015 年以来、Windows 10 は市場シェアの 70% 近くを占め、Windows オペレーティング システムとしての優位性を確固たるものにしました。しかし、そのシェアは82%を大きく上回り、2021年に発売されるWindows 11のシェアを大きく上回っている。 Windows 11 は発売から 3 年近く経ちますが、市場への浸透はまだ遅いです。 Microsoft は、Windows 10 の技術サポートを 2025 年 10 月 14 日以降に終了すると発表しました。

4 月 27 日のこのサイトのニュースによると、Microsoft は今月初めに Windows 11 Build 26100 プレビュー バージョン アップデートを Canary チャネルと Dev チャネルにリリースしました。これは Windows 1124H2 アップデートの RTM バージョンの候補になると予想されています。新バージョンの主な変更点は、ファイルエクスプローラー、Copilotの統合、PNGファイルメタデータの編集、TARおよび7z圧縮ファイルの作成など。 @PhantomOfEarth は、Microsoft が TAR および 7z 圧縮ファイルの作成など、24H2 バージョン (ゲルマニウム) の一部の機能を 23H2/22H2 (ニッケル) バージョンに継承していることを発見しました。図に示すように、Windows 11 は TAR のネイティブ作成をサポートします。

3月21日のニュースによると、Microsoftは最近ブラウザ「Microsoft Edge」をアップデートし、実用的な「画像拡大」機能を追加した。 Edge ブラウザを使用している場合、ユーザーは画像を右クリックするだけで、ポップアップ メニューでこの新機能を簡単に見つけることができます。さらに便利なのは、ユーザーが画像の上にカーソルを置き、Ctrl キーをダブルクリックして、画像をズームインする機能をすぐに呼び出すこともできることです。編集者の理解によれば、新しくリリースされた Microsoft Edge ブラウザーは、Canary チャネルで新機能についてテストされています。安定版ブラウザでは、実用的な「画像拡大」機能も正式に開始し、より便利な画像閲覧体験をユーザーに提供しています。海外の科学技術メディアも注目

3 月 11 日のこの Web サイトのニュースによると、情報源の Yuki Yaso-YuuKi_AnS は最近、X プラットフォーム上の Microsoft Z1000 ソリッド ステート ドライブ サンプルの一連の写真を共有しました。ラベル情報から、この Z1000 は、2020 年 5 月 18 日に製造された、容量 960GB の Engineering Sample (エンジニアリング サンプル) であることがわかりました。情報源によると、NVMe1.2プロトコルをサポートしているという。 ▲Microsoft Z1000 SSD の前面写真 (ラベルあり) ▲Microsoft Z1000 SSD の前面写真 (ラベルなし) ▲Microsoft Z1000 SSD の背面写真 ▲Microsoft Z1000 SSD の背面写真 - メイン コントロールのクローズアップ リファレンス ゆうきやすほ-YuuKi_An

2024 年後半、マイクロソフトの公式セキュリティ ブログは、セキュリティ コミュニティからの呼びかけに応えてメッセージを公開しました。同社は、セキュリティを向上させるために、2024 年後半にリリースされる Windows 11 から NTLAN Manager (NTLM) 認証プロトコルを廃止する予定です。これまでの説明によれば、マイクロソフトは以前にも同様の動きを行っているという。昨年 10 月 12 日、Microsoft は公式プレス リリースで、NTLM 認証方法を段階的に廃止し、より多くの企業とユーザーに Kerberos への切り替えを促すことを目的とした移行計画を提案しました。 NTLM 認証をオフにした後にハードウェア接続されたアプリケーションやサービスで問題が発生する可能性がある企業を支援するために、Microsoft は IAKerb と
