Rokidアルゴリズム責任者のWang Wenbing氏:AR下での「サウンド」は「素晴らしい」状態にある
音は私たちの日常生活に遍在し、なくてはならないものですが、メタバースの世界でも同様です。メタバースの世界への没入感を最大限に高めるためには、さまざまな音響技術の継続的なアップグレードと開発が必要です。 51CTOが先日開催した「 AISummit Global Artificial Intelligence Technology Conference 」にて、Rokidアルゴリズム責任者のWang Wenbing氏が登壇基調講演「Sound in AR under "Wonderful" Land」では、Rokid が自社開発した 6DoF 空間音場の概念、主な技術モジュール、技術的困難さ、AR と組み合わせた開発動向と本来の意図が紹介されました。テクノロジーの開発、空間音場を説明する メタバース世界におけるテクノロジーの重要な表現。
スピーチの内容は次のように構成されています。
6dof 空間音場とは何ですか?
この問題について話すときは、まず技術的な制限を脇に置き、AR 上のサウンドがどのように表現されるべきかを想像してください。実際、現在私たちが使っているテレビや携帯電話のほとんどはステレオのような2チャンネルですし、ホームシアターではすでに多チャンネル化が進んでいますし、映画館などのプロの現場でも空間配置にスピーカーが設置されています。
AR ではどのように表示する必要がありますか?今流行のオンライン会議やオンライン教育などのシーンを想像してみると、メタバース世界で右側のデジタル人間がずっと話しているのに、声が左側から聞こえてきたら、違和感を感じませんか?この時?
さらに、AR ゲームを想像してみましょう。これまでの 2D ビジョンでは、サウンドはビジョンの焦点に合わせて動きますが、3D シーンの 360 度の範囲内で動きます。 , 人間の目は視覚的な焦点全体を把握することはできませんが、音には全体的な焦点があります。多くのゲームで、音に応じて視点が切り替わるのはこのためです。したがって、AR 上のサウンドに必要な特性のいくつかがわかります。それは、人々の音に対する高い感度、音の世界的な焦点、音のリアリズムの要件を満たす必要があるということです。
次に、3次元からの音の形の発展の軌跡を紹介します。
#まずは空間表現の次元。 サウンド全体の表現次元は、モノラル/ステレオから5.1/7.1/9.1/...の平面内のマルチチャンネル、5.1.x/7.1.xの空間内のマルチチャンネルなどまで多岐にわたります。スピーカーの数はますます増えており、その配置は平面から空間まで増加しています。
第 2 に、エンコード方法の次元です。 最初から、チャネルベース (つまり、チャネルベースのエンコーディング、各チャネルには通常の左右のチャネル表現などのさまざまなサウンドがあります) から、オブジェクトベース (これもコーディングすることです) までたとえば、砲弾が撃ち落とされると、その砲弾のオブジェクトが特別にコード化され、その移動軌跡がメタデータに記録され、再生は対応するスピーカーの位置に基づいて行われますが、私たちの最終的な目標は、砲弾だけでなく、HOA などのパノラマ サウンド手法と同様に、シーンに完全に基づいた効果を達成することです。秋、空間感があります。
#3 番目は、XR エクスペリエンスの次元です。 以前は、仮想サウンドは現実世界から切り離されていましたが、今の XR、特に AR では、仮想と現実の統合が行われています。
人間がこれほど細かく音を聞き分けられるのはバイノーラルモードによるもので、厳密に言えばITDとILD、つまり両者の時間差と音の強さの差です。耳。これら 2 つの違いは、オブジェクトの音の方向を素早く特定するのに役立ちます。
では、3D サウンドを普及させるにはどうすればよいでしょうか?会場の制限をどう打破するか?ユーザーの消費コストを削減するにはどうすればよいですか?どうすれば誰もがテクノロジーを楽しむことができるでしょうか? Rokid が独自に開発した 6dof 空間音場は、これらの問題の解決に役立ちます。
6dof 空間音場 はその名前から、6dof と空間音場という 2 つの部分に分けることができます。 6dofは主に6自由度を表現しており、ジャイロスコープはXYZの3方向の回転を、加速度センサーはXYZの3方向の加速度を与えます。
6dof 空間音場には、音の生成、伝達、レンダリング、エンコードとデコード、および仮想と現実の融合と相互作用が含まれます。プロセス全体を通して音が鳴ります。
6dof 空間音場の主要技術
6dof 空間音場の主要技術モジュール HRTF、サウンド フィールド レンダリング、サウンド エフェクト が含まれます。 HRTF は、自由音場から鼓膜までの音源の衝撃関数であり、模擬無響室環境において全方位の音を人間の耳に伝達するプロセスです。音場レンダリングにより、人は聞くことで音の位置を区別できるようになり、仮想と現実のオブジェクトをブレンドして、仮想音源に対する現実のオブジェクトの影響を完全に処理できます。音響効果としては、プライバシーに配慮したオープンスピーカーを採用することで音漏れを抑え、音量を確保することで音質を豊かにします。
アーキテクチャ図の上部にある SDK は、外部空間モジュール、つまり空間エンジンのエクスポートと音声エンジンを提供します。輸出。空間情報を取得してモデル化することができ、デジタル世界と物理世界の統合に役立ちます。
さらに、ルームエフェクトにもいくつかの変更を加えました。全体的なフレームワークは古典的なネットワーク構造と似ており、まずネットワークを構築し、理論的なロスレス ネットワークを生成し、この理論に基づいて、吸収、オクルージョン、反射、等実際、私たちはさまざまな効果音を作り出すことが目的ではなく、演劇や音楽など、製品の使用シーンに基づいて、ユーザーに優れた視聴覚体験を提供するための効果音を提供しているだけです。次世代ARメガネ「Rokid Max」について。
6dofの空間音場比較。左側はサードパーティ製SDKの効果で、0度から90度まで回転させた際、各周波数の変化が滑らかではなく、最初は急激に減少し、その後の変化は非常に小さいです。右の Rokid が作成した 6dof 空間音場では、位置の変化に応じてさまざまな周波数帯域で明らかな変化が見られます。この写真は、さまざまな角度、さまざまな周波数帯域、さまざまな振幅でのパフォーマンスを示しています。
6dof空間音場の開発動向
時代とともに2020 年の到来と AR および VR テクノロジーの台頭により、空間音場の開発も新たな機会をもたらしました。
空間音場の開発トレンドは、主に 3 つの側面に反映されています。
第一に、没入感、人々は現実のものを追うことができます。仮想と現実の統合と相互作用を改善し、真に没入型のエクスペリエンスを実現するためのフィードバックを提供します。 仮想世界のすべての音は、現実世界のオブジェクトの影響から自由であってはなりません。これは、人々にそれがまだ分離しているように感じさせるためです。統合に加えて、インタラクションも必要です。たとえば、仮想世界では、音声やジェスチャーなどのさまざまな方法で AR 端末上の強化されたサウンドとインタラクションし、さまざまなウィンドウの一時停止、再生、切り替えを選択できます。レベルや視点、自分なりの感じ方など、興味の声など。
2 つ目は改良です。これには、HRTF、解像度、テスト方法、カスタマイズなどのさまざまな側面での洗練された探索と実践が含まれます。 洗練するのがより難しいのはヘッド パスです。ヘッド パス自体の生成方法はより時間と手間がかかるため、球状空間全体のさまざまな距離にあるすべてのポイントを再生し、その結果をサンプリングする必要があります。外耳道。現在、一部の学者は、より少ないサンプリングポイントで同じ程度のリファインメントを生成する方法、および補間またはその他の技術的手段によってより高い精度を達成する方法を研究していますが、同時に、長期的な観点から、リファインメントの 1 つの制限がカスタマイズされています。実装。
#3 つ目はプライバシーと音響効果で、さまざまな周波数帯域の音によってもたらされる聴覚の饗宴を体験します。 異なる倍音や異なる周波数帯域は、私たちに異なる感覚を与えます。例えば、残響が激しいと人間の聴覚に影響を与えますが、適切な残響は音質面で豊かなリスニング体験をもたらしますが、特に初期の残響は3K以下の音色の判断によく使われます。高周波成分はサラウンド感を実現するのに役立ちます。
空間音場探求の本来の目的
なぜ Rokid は空間音場を作成するのでしょうか?主な理由は 3 つあります。
まず、没入型です。 私たちは、ゲームプレイ時の鮮やかさ、オンライン会議やオンライン教育のリアリティなど、デジタル世界とフィジカル世界の融合を追求してきました。
2 つ目は、仮想と現実のインタラクションです。 私たちは、この世界の未来は現実と現実の融合であると信じています。その融合に基づいて、空間認識のプロセスや主観的な行動の相互作用など、さまざまな相互作用が可能になります。空間認識とは、物体のサイズ、空間のサイズ、材質などの世界の側面を指します。この認識は、仮想音に影響を与えます。主観的な動作の相互作用は、人間の介入、選択、および音との相互作用です。デジタル世界、コミュニケーション。
#3、究極の品質。 AR Glass は、携帯電話、タブレット、テレビ、その他の製品とは異なります。携帯電話を使用する場合、ネットワークの切断や遅延は許容できますが、目に装着する AR グラスのリアルタイム要件は非常に高くなります。この高いリアルタイム要件をどのように達成できるでしょうか?これには、アルゴリズム、エンジニアリング、システム、ハードウェア、アプリケーションの全体的な最適化が含まれます。
これらは私たちが追求してきた使命であり、Rokid は AR Glass 製品を通じてこれらの機能を一般に直接宣伝し、普及させたいと考えていますが、同時にこれらのテクノロジーを活用したいとも考えています。 Yoda OS の一部として基本機能がリリースされ、それによって間接的にユーザーに利益がもたらされ、開発者の使用を通じてあらゆる分野に力が与えられます。
カンファレンスのスピーチ リプレイと PPT がオンラインになりました。公式 Web サイトにアクセスして、エキサイティングなコンテンツをご覧ください (https://www.php .cn/link/53253027fef2ab5162a602f2acfed431 )
以上がRokidアルゴリズム責任者のWang Wenbing氏:AR下での「サウンド」は「素晴らしい」状態にあるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究

NTT QONOQ Devices は、ユーザーがコードを取り回す必要から解放される、スマートフォン用の Mirza ワイヤレス XR メガネを発表しました。このメガネは、ポケモン Go などの現実世界の空間に仮想 AR コンテンツを表示したり、大きな仮想ディスプレイに携帯電話のコンテンツを表示したりできます。
