現在位置:ホームページ > 技術記事 > テクノロジー周辺機器 > AI
- 方向:
- 全て ウェブ3.0 バックエンド開発 ウェブフロントエンド データベース 運用・保守 開発ツール PHPフレームワーク 毎日のプログラミング WeChat アプレット よくある問題 他の 技術 CMS チュートリアル Java システムチュートリアル コンピューターのチュートリアル ハードウェアチュートリアル モバイルチュートリアル ソフトウェアチュートリアル モバイル ゲームのチュートリアル
- 分類する:
-
- 清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化
- iVideoGPT は、ワールド モデルの高度なインタラクティブ性のニーズを満たします。生成モデルは近年大幅な進歩を遂げ、ビデオ生成が新たな領域となりました。これらの生成ビデオ モデルの重要な用途は、予測世界モデルを構築するために、インターネット規模の多様なデータを教師なしで学習することです。これらの世界モデルは、世界がどのように機能するかについての常識的な知識を蓄積し、エージェントの行動に基づいて潜在的な将来の結果を予測できるようにすると期待されています。これらの世界モデルを活用することで、強化学習を使用するエージェントは世界モデル内で想像、推論、計画を立てることができ、それによって、少量の実験で現実世界でより安全かつ効率的に新しいスキルを習得できます。生成モデルは基本的にワールド モデルに関連していますが、視覚的な目的で使用されます。
- AI 950 2024-06-09 17:06:01
-
- Bengio らによる新しい作品: RNN と見なすことができる新しいモデルは、Transformer に匹敵しますが、非常にメモリを節約します。
- シーケンス モデリングの進歩は、強化学習 (ロボット工学や自動運転など)、時系列分類 (金融詐欺検出や医療診断など) などを含む幅広いアプリケーションで重要な役割を果たしているため、非常に大きな影響を与えています。ここ数年、Transformer の登場により、シーケンス モデリングは大きな進歩を遂げました。これは主に、Transformer が GPU 並列処理を活用できる高性能アーキテクチャを提供しているためです。ただし、Transformer には、主にメモリとコンピューティング要件の 2 次拡張が原因で、推論中の計算オーバーヘッドが高く、低リソース環境 (モバイルや組み込みデバイスなど) でのアプリケーションが制限されます。 KV キャッシュなどのテクノロジーを使用して推論効率を向上させることはできますが、
- AI 687 2024-06-09 16:50:32
-
- ガーゼを持ち、針をつかむNVIDIA、多くの大学と協力して手術ロボットを開発
- 編集者 | NVIDIA は、トロント大学、カリフォルニア大学バークレー校、チューリッヒ工科大学、ジョージア工科大学の研究者と協力して、ロボットをトレーニングするためのシミュレーション フレームワークである ORBIT-Surgical を開発しました。これは、技術チームのスキルを向上させながら、作業の負担を軽減することができます。外科医の認知負荷。 ORBIT-Surgical は、仮想手術環境とインテリジェントなコーチング システムを通じて、非常に現実的な手術シミュレーションを実現する人工知能ベースのシミュレーション フレームワークです。医師はこのシステムを操作して、実際の手術のさまざまな状況や複雑さをシミュレートできます。このシミュレーション技術は、腹腔鏡手術を受ける患者の訓練に役立つだけでなく、
- AI 566 2024-06-09 13:23:16
-
- CLIP は、RNN として使用すると CVPR として選択されます。トレーニングなしで無数の概念をセグメント化できます。オックスフォード大学と Google Research
- CLIP は周期的に呼び出され、追加のトレーニングなしで無数の概念を効果的にセグメント化します。映画のキャラクター、ランドマーク、ブランド、一般的なカテゴリを含む任意のフレーズ。オックスフォード大学と Google Research の共同チームによるこの新しい成果は CVPR2024 に承認され、コードはオープンソース化されました。チームは、CLIPasRNN (略して CaR) と呼ばれる新しいテクノロジーを提案しました。これにより、オープンボキャブラリーの画像セグメンテーションの分野におけるいくつかの重要な問題が解決されます。トレーニング データは必要ありません。従来の方法では、微細なデータを得るために大量のマスク アノテーションまたは画像テキスト データセットが必要です。 -チューニング、CaR このテクノロジーは追加のトレーニング データなしで機能します。オープン語彙の制限: 事前トレーニングされたビジュアル言語モデル (VLM) は、微調整後のオープン語彙を処理する能力に制限があります。 C
- AI 530 2024-06-09 12:53:28
-
- Huake らは、人間が踊るビデオ生成のための新しいフレームワークである UniAnimate を提案しました。
- AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com ヒューマン ダンス ビデオの生成は、入力参照画像とターゲット ポーズ シーケンスに基づいて、高品質でリアルな画像を生成することを目的とした、魅力的でやりがいのある制御可能なビデオ合成タスクです。ビデオ生成技術の急速な発展、特に生成モデルの反復進化により、
- AI 1120 2024-06-09 11:10:58
-
- PID およびカーネギーメロン大学よりも滑らかな制御アルゴリズム
- MPC 制御アルゴリズム、正式名 ModelPredictiveControl (モデル予測制御) は、システム動的モデルに基づく制御技術です。これは、数学的モデルを通じてシステムの将来の動作を予測し、これらの予測に基づいてシステムの制御入力を最適化して、目的の出力を達成することによって機能します。 MPC 制御アルゴリズムの中心的な考え方は、各制御サイクルで将来の一定期間の予測結果を最適化することで、最適な制御入力を取得することです。この最適化は、所望の出力を達成するためにシステムの制御入力を最適化するためのいくつかの予測結果に基づいています。 MPC 制御アルゴリズムは広く使用されており、いくつかの制約を満たす必要がある制御システムに特に適しています。システムモデルと最適化技術を組み合わせることで、MP
- AI 880 2024-06-09 09:57:28
-
- 砲撃スキャンダルにスタンフォードAI研究所所長激怒!盗作チームの 2 人のメンバーが責任を負い、1 人が失踪し、彼の犯罪歴が暴露されました。ネチズン: 中国のオープンソース モデルを再理解する。
- スタンフォード大学のチームが清華大学の大規模なモデルを盗用したという事件はその後に起きた。Llama3-V チームは盗作を認め、スタンフォード大学の学部生のうち 2 人は別の著者と絶縁さえした。最新の謝罪ツイートはSiddharthSharma氏とAkshGarg氏によって送信された。その中にはいないが、南カリフォルニア大学のムスタファ・アルジャデリ(略してラオ・ムー)は主な過失当事者として告発されており、昨日から行方不明となっている。昨日から彼と連絡が取れません。 Siddharth、私 (Akshi)、Lao Mu が Llama3-V をリリースし、Lao Mu がプロジェクトのコードを書きました。シッダースと私の役割は、彼が Medium と T を始めるのを手伝うことです
- AI 1354 2024-06-09 09:38:08
-
- 再び OpenAI に傍受された Google は、オープンソースのビジュアル言語モデルである PaliGemma を立ち上げました。
- はじめに このモデルは、SigLIP 視覚モデルと Gemma 言語モデルを組み合わせたもので、どちらもオープン コンポーネントであり、PaliGemma は視覚と言語を組み合わせたタスクの処理に優れています。 PaliGemma の使用シナリオには、画像字幕、画像タグ、視覚的な質問応答が含まれます。これらのアプリケーション シナリオでは、画像コンテンツを理解して主要な特徴を抽出し、この情報を言語出力に変換する PaliGemma の機能を利用して、ユーザーとの対話やコンテンツの自動生成を可能にします。この柔軟性により、PaliGemma は研究開発環境だけでなく、顧客サービス、コンテンツ推奨システムなどの商用アプリケーションにも適しています。 PaliGemma では何ができるのでしょうか? プロンプトが表示された場合、写真を使用できます。
- AI 685 2024-06-09 09:17:06
-
- LightGBM実戦+ランダム探索パラメータ調整:命中率96.67%
- 皆さんこんにちは、ピーターです。LightGBM は古典的な機械学習アルゴリズムであり、その背景、原理、特性は非常に研究する価値があります。 LightGBM のアルゴリズムは、効率、拡張性、高精度などの機能をもたらします。この記事では、LightGBM の特徴と原理、および LightGBM とランダム検索最適化に基づくいくつかの事例を簡単に紹介します。 LightGBM アルゴリズム 機械学習の分野では、勾配ブースティング マシン (GBM) は強力なアンサンブル学習アルゴリズムのクラスであり、弱い学習器 (通常は決定木) を徐々に追加して予測誤差を最小限に抑えることによって強力なモデルを構築します。 GBM は、事前の処理を最小限に抑えるためによく使用されます。
- AI 782 2024-06-08 22:45:30
-
- Mistral オープン ソース コード モデルが王位を獲得します。 Codestral は 80 を超える言語でのトレーニングに熱心に取り組んでおり、国内の Tongyi 開発者が参加を求めています。
- 51CTO Technology Stack (WeChat ID: blog51cto) が制作、Mistral は最初のコードモデル Codestral-22B をリリースしました!このモデルのすごいところは、多くのコード モデルが無視する Swift などを含む 80 以上のプログラミング言語でトレーニングされていることだけではありません。それらの速度はまったく同じではありません。 Go言語を使用して「パブリッシュ/サブスクライブ」システムを記述する必要があります。ここでは GPT-4o が出力されており、Codestral は、見るのが難しいほど高速で論文を提出しています。発売されたばかりのモデルのため、まだ公的テストは行われていない。しかし、Mistral の担当者によると、Codestral は現在最もパフォーマンスの高いオープンソース コード モデルであるとのことです。写真に興味のある友達は次の場所に移動できます: - 顔を抱きしめる: https
- AI 1279 2024-06-08 21:55:01
-
- 「クローズド ループ」に向けて | PlanAgent: MLLM に基づく自動運転のクローズド ループ プランニングのための新しい SOTA!
- 中国科学院オートメーション研究所の深層強化学習チームは、Li Auto氏らとともに、マルチモーダル大規模言語モデルMLLM(PlanAgent)に基づく自動運転のための新しい閉ループ計画フレームワークを提案した。この手法は、シーンの鳥瞰図とグラフベースのテキスト プロンプトを入力として受け取り、マルチモーダル大規模言語モデルのマルチモーダル理解機能と常識推論機能を利用して、シーンの理解から生成までの階層的推論を実行します。水平移動と垂直移動の指示を作成し、プランナーが必要とする指示をさらに生成します。このメソッドは、大規模で困難な nuPlan ベンチマークでテストされており、実験では、PlanAgent が通常のシナリオとロングテール シナリオの両方で最先端 (SOTA) のパフォーマンスを達成することが示されています。従来の大規模言語モデル (LLM) メソッドと比較して、PlanAgent
- AI 512 2024-06-08 21:30:27
-
- LLaVA をモジュール的に再構築します。コンポーネントを置き換えるには、1 ~ 2 個のファイルを追加するだけです。オープンソースの TinyLLaVA Factory がここにあります。
- TinyLLaVA+ プロジェクトは、清華大学電子学部マルチメディア信号知能情報処理研究室 (MSIIP) の Wu Ji 教授のチームと、北航大学人工知能学部の Huang Lei 教授のチームによって共同で作成されました。清華大学の MSIIP 研究室は、インテリジェント医療、自然言語処理と知識発見、マルチモダリティなどの研究分野に長年取り組んできました。北京航空のチームは、ディープラーニング、マルチモダリティ、コンピュータービジョンなどの研究分野に長年取り組んできました。 TinyLLaVA+ プロジェクトの目標は、言語理解、質疑応答、対話などのマルチモーダル機能を備えた小型の言語を越えたインテリジェント アシスタントを開発することです。プロジェクトチームはそれぞれの利点を最大限に発揮し、技術的課題を共同で克服し、インテリジェントアシスタントの設計と開発を実現していきます。これにより、インテリジェントな医療、自然言語処理、知識の機会が提供されます。
- AI 594 2024-06-08 21:21:29
-
- 米国はロボット工学の応用において大きく遅れをとっているのでしょうか? 15年後、上位10大学が「国家ロボット工学ロードマップ」を再スタート
- ロボット技術には70年の歴史があり、その黎明期から米国がリードし続けています。米国が初めて国家ロボット工学ロードマップを発表した2009年の時点で、米国の産業用途(自動車、航空宇宙、家電など)への応用は世界第4位に落ちている。 2015 年以来、米国はロボット技術の採用を増やし続け、世界第 10 位にランクされています。アジアのロボット市場は米国市場の 5 ~ 10 倍に拡大しています。中国はこの分野で「はるかに先を行っている」 2023 年には、販売されたロボットの約 52% を中国が購入しており、ロボット工学がもはや米国の国家的優先事項ではないことを示している。ごく最近では、カリフォルニア大学ペンシルベニア校から
- AI 1142 2024-06-08 20:57:00
-
- MIT の最新傑作: GPT-3.5 を使用して時系列異常検出の問題を解決する
- 今日は、MIT が先週公開した記事を紹介します。GPT-3.5-turbo を使用して時系列異常検出の問題を解決し、時系列異常検出における LLM の有効性を最初に検証しました。プロセス全体に微調整はなく、GPT-3.5-turbo は異常検出に直接使用されます。この記事の核心は、時系列を GPT-3.5-turbo が認識できる入力に変換する方法とその設計方法です。 LLM が異常検出タスクを解決できるようにするためのプロンプトまたはパイプライン。この作品について詳しく紹介していきます。画像用紙タイトル:Large languagemodelscanbeゼロショタノマリデテ
- AI 747 2024-06-08 18:09:01
-
- Microsoft Build カンファレンスでは、Fabric、PostgreSQL、Cosmos DB が AI の強化を受けました
- Microsoft は最近、Build カンファレンスで、クラウド データベース管理製品の新しい人工知能機能を含む約 60 件の発表を発表しました。昨年立ち上げた同社の統合データプラットフォームであるファブリックは大きな恩恵を受けている。現在プレビュー段階にあるワークロード開発キット (ワークロード開発キット) を使用して、ファブリック内のアプリケーションを拡張できます。 FabricDataSharing は、ユーザーおよびアプリケーション間でリアルタイム データを処理する新機能です。外部ソースに保存されたデータにアクセスするためのアプリケーション プログラミング インターフェイスが含まれています。新しい自動化機能 (オートメーション) により、反復的なタスクが簡素化されます。 Fusion システム全体はまったく新しい RESTfu です
- AI 1111 2024-06-08 17:46:24