


もう恥ずかしい「ビデオ会議」の心配はありません! Google CHI が新しいアーティファクト Visual Captions をリリースします: 写真を字幕アシスタントにしましょう
近年、仕事における「ビデオ会議」の割合が徐々に増加しており、メーカー各社も会議で言語の異なる人同士のコミュニケーションを円滑にするためにリアルタイム字幕などのさまざまな技術を開発しています。 。
しかし、別の問題点があります。会話の中で、相手に馴染みのない用語が出てきて、それを言葉で説明するのが難しい場合、たとえば食べ物などです。」 「すきやき」「先週休暇で公園に行きました」など、美しい景色を言葉で相手に伝えるのは難しく、「東京は日本の関東地方にあるので地図が必要だ」とさえ指摘される言葉だけだと相手はどんどん怒ってしまい、ますます混乱してしまいます。
最近、Google は人間に関するトップカンファレンスである ACM CHI (コンピューティング システムにおけるヒューマン ファクターに関する会議) でデモンストレーションを行いました。 - コンピュータ インタラクション リモート会議に新しい視覚ソリューションを導入するシステムであるビジュアル キャプションは、会話のコンテキストで画像を生成または取得して、複雑な概念やなじみのない概念に対する相手の理解を向上させることができます。
論文リンク: https://research.google/pubs/pub52074/
コードリンク: https://github.com/google/archat
Visual Captions システムは罰金に基づいています。 -tuned オープンな語彙会話で関連する視覚要素を積極的に推奨できる大規模な言語モデルで、オープンソース プロジェクト ARChat に統合されています。
ユーザー調査では、研究者は研究室内の 26 人の参加者を招待し、研究室外の人々と交流させました。10 人の参加者が評価しましたユーザーの 80% 以上が、ビデオ キャプションがさまざまなシナリオで有用かつ有意義な視覚的な推奨事項を提供し、コミュニケーション エクスペリエンスを向上できることに基本的に同意しました。
デザインアイデア開発前に、研究者らはまず、ソフトウェアエンジニア、研究者、UXデザイナー、ビジュアルアーティスト、学生、技術者や非専門家を含む10人の社内参加者を招待しました。 - リアルタイムのビジュアル強化サービスに対する特定のニーズと期待について議論するための技術的背景。
2 回の会議の後、既存のテキストから画像へのシステムに基づいて、主に 8 つの次元 (D1 から D8 として示される) を含む、予想されるプロトタイプ システムの基本設計が確立されました。
D1: タイミング、視覚強化システムはダイアログと同期または非同期で表示できます
D2: テーマ、目的に使用できます。音声コンテンツを表現し、理解する
##D3: ビジュアル、幅広いビジュアル コンテンツ、ビジュアル タイプ、ビジュアル ソースを使用できます#D4:スケール、会議のサイズに応じて、視覚的な拡張機能は異なる場合があります
#D5: スペース、ビデオ会議が同じ場所にあるのか、リモート設定で行われているのか
D6: プライバシー。これらの要素は、ビジュアルを非公開で表示するか、参加者間で共有するか、全員に公開するかにも影響します。
D7: 初期状態、参加者は、システムと対話するさまざまな方法、たとえば、さまざまなレベルの「イニシアチブ」、つまり、システムがいつチャットに介入するかをユーザーが自律的に決定できる D8: インタラクション、参加者は、たとえば、入力に音声やジェスチャーを使用するなど、さまざまな対話方法を想定しました。
研究者らは、予備的なフィードバックに基づいて、意味的に関連する視覚コンテンツ、タイプ、ソースの同期視覚効果の生成に重点を置くビデオ キャプション システムを設計しました。 検討会議のアイデアのほとんどは 1 対 1 のリモート会話に焦点を当てていますが、ビデオ キャプションは 1 対多の会話にも使用できます (例: 聴衆へのプレゼンテーション)多対多のシナリオ (複数人による会議ディスカッション) の展開。 さらに、会話を最もよく補完するビジュアルはディスカッションのコンテキストに大きく依存するため、目的に合わせて作成されたトレーニング セットが必要です。 研究者らは、言語、ビジュアルコンテンツ、タイプ、ソースを含む 1595 のクアドルプルを収集し、日常会話、講義、旅行ガイドなどを含むさまざまな文脈上のシナリオをカバーしました。 例えば、「笑顔」というビジュアルコンテンツや「絵文字」に対応して、ユーザーは「見たいです!」(ぜひ見たいです!)と発言します。 (絵文字) ビジュアル タイプと「パブリック検索」(パブリック サーチ) のビジュアル ソース。 「彼女はメキシコへの旅行について話しましたか?」 「メキシコへの旅行の写真」のビジュアル コンテンツ、「写真」と「個人アルバム」のビジュアル タイプに対応します。 「ビジュアルソース。 データセット VC 1.5K は現在オープンソースです。
データリンク: https://github.com/google/archat/tree/main/dataset
ビジュアル インテント予測モデル
どのビジュアルが会話を補完するかを予測するために、研究者は VC1.5K を使用して大規模な言語モデルに基づいてビジュアル インテントをトレーニングしました。データセットの意図予測モデル。
トレーニング フェーズでは、各ビジュアル インテントが「 の の 」の形式に解析されます。
この形式に基づいて、システムはオープンボキャブラリーの会話を処理し、状況に応じてビジュアルコンテンツ、ビジュアルソース、およびビジュアルを予測できます。タイプ。
このアプローチは、キーワードベースのアプローチよりも実際には優れています。後者は自由に使える語彙を処理できないためです。たとえば、ユーザーが「あなたのエイミーおばさんが今週土曜日に訪問します」と言った場合、キーワードが一致しない場合、関連するビジュアル タイプまたはビジュアル ソースを推奨できません。
研究者らは、VC1.5K データセット内の 1276 (80%) サンプルを大規模言語モデルの微調整に使用し、残りの 319 (20%) サンプルをテスト データとして使用しました。レート インデックスは、微調整されたモデルのパフォーマンス、つまり、モデルが正しく予測するサンプル内の正しいトークンの割合を測定するために使用されます。
最終モデルは、トレーニング トークンの精度 97%、検証トークンの精度 87% を達成できます。
実践調査
トレーニングされた視覚字幕モデルの実用性を評価するために、研究チームは89人の参加者に846のタスクを実行してもらい、その効果を評価してもらいました。 , 1 は強く反対することを意味し、7 は強く同意することを意味します。
実験結果によると、ほとんどの参加者は会話中に視覚効果を見ることを好み(Q1)、83%が5-やや同意以上の評価を与えました。
さらに、参加者は表示されたビジュアルが有益で有益であると感じており (Q2)、82% が 5 以上の評価を与え、高品質 (Q3) 、82% がそれ以上の評価を与えています。 5 ポイント以上、元の音声に関連している (Q4、84%)。
参加者は、予測されたビジュアル タイプ (Q5、87%) とビジュアル ソース (Q6、86%) が、対応する会話のコンテキスト内で正確であることも発見しました。
#研究参加者は視覚的予測モデルの技術的評価結果を評価します
この微調整された視覚的意図予測モデルに基づいて、研究者らは ARChat プラットフォーム上でビジュアル キャプションを開発しました。これにより、Google Meet などのビデオ会議プラットフォームのカメラ ストリームに新しいインタラクティブなウィジェットを直接追加できます。
システム ワークフローでは、ビデオ キャプションは自動的にユーザーの音声をキャプチャし、最後の文を取得し、100 ミリ秒ごとに視覚的意図予測モデルにデータを入力し、関連する視覚効果を取得できます。次に、推奨されるビジュアルを提供します。
##ビジュアル キャプションのシステム ワークフロー
Visual Captions では、ビジュアルを推奨するときに 3 つのレベルのオプションのイニシアチブを提供します。自動表示 (高イニシアチブ): システムが自律的にビジュアルを検索し、すべての会議参加者に公開して表示します。 ユーザーの介入なしで効果が得られます。
自動推奨 (中程度のイニシアチブ): 推奨されるビジュアルがプライベート スクロール ビューに表示され、ユーザーがビジュアルをクリックすると公開表示されます。このモードでは、システム ビジュアルが積極的に推奨されますが、いつ、何を表示するかはユーザーが決定します。
オンデマンドの提案 (主導権が低い): システムは、ユーザーがスペースバーを押した後にのみ視覚効果を推奨します。
研究者らは、管理されたラボ研究 (n = 26) とテスト段階導入研究 (n = 10) でビジュアル キャプション システムを評価し、参加者はリアルタイムのビジュアルが円滑化に役立つことを発見しました。なじみのない概念を説明し、言語のあいまいさを解決し、会話をより魅力的なものにすることで、生きた会話を実現します。
参加者のタスク負荷指数とリッカート スケールの評価 (VC なしと 3 つの異なるイニシアチブを含む) 性的 VC
#参加者は、現場で対話するためのさまざまなシステム設定、つまり、さまざまな会議シナリオでさまざまな程度の VC イニシアチブを使用することも報告しました以上がもう恥ずかしい「ビデオ会議」の心配はありません! Google CHI が新しいアーティファクト Visual Captions をリリースします: 写真を字幕アシスタントにしましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











この記事では、SESAME Open Exchange(gate.io)Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。 この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します(モバイル検証コードやGoogle Authenticatorなど)。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

このガイドは、AndroidおよびiOSシステムに適した公式Bitget Exchangeアプリの詳細なダウンロードとインストール手順を提供します。このガイドは、公式ウェブサイト、App Store、Google Playなど、複数の権威ある情報源からの情報を統合し、ダウンロードおよびアカウント管理中の考慮事項を強調しています。ユーザーは、App Store、公式WebサイトAPKダウンロード、公式Webサイトジャンプ、完全な登録、ID検証、セキュリティ設定など、公式チャネルからアプリをダウンロードできます。さらに、ガイドはよくある質問や考慮事項をカバーします。

このガイドは、AndroidおよびiOSシステムに適した公式Bitget Exchangeアプリの詳細なダウンロードとインストール手順を提供します。このガイドは、公式ウェブサイト、App Store、Google Playなど、複数の権威ある情報源からの情報を統合し、ダウンロードおよびアカウント管理中の考慮事項を強調しています。ユーザーは、App Store、公式WebサイトAPKダウンロード、公式Webサイトジャンプ、完全な登録、ID検証、セキュリティ設定など、公式チャネルからアプリをダウンロードできます。さらに、ガイドはよくある質問や考慮事項をカバーします。
