現在位置:ホームページ > 技術記事 > テクノロジー周辺機器 > AI

  • 清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化
    清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化
    iVideoGPT は、ワールド モデルの高度なインタラクティブ性のニーズを満たします。生成モデルは近年大幅な進歩を遂げ、ビデオ生成が新たな領域となりました。これらの生成ビデオ モデルの重要な用途は、予測世界モデルを構築するために、インターネット規模の多様なデータを教師なしで学習することです。これらの世界モデルは、世界がどのように機能するかについての常識的な知識を蓄積し、エージェントの行動に基づいて潜在的な将来の結果を予測できるようにすると期待されています。これらの世界モデルを活用することで、強化学習を使用するエージェントは世界モデル内で想像、推論、計画を立てることができ、それによって、少量の実験で現実世界でより安全かつ効率的に新しいスキルを習得できます。生成モデルは基本的にワールド モデルに関連していますが、視覚的な目的で使用されます。
    AI 950 2024-06-09 17:06:01
  • Bengio らによる新しい作品: RNN と見なすことができる新しいモデルは、Transformer に匹敵しますが、非常にメモリを節約します。
    Bengio らによる新しい作品: RNN と見なすことができる新しいモデルは、Transformer に匹敵しますが、非常にメモリを節約します。
    シーケンス モデリングの進歩は、強化学習 (ロボット工学や自動運転など)、時系列分類 (金融詐欺検出や医療診断など) などを含む幅広いアプリケーションで重要な役割を果たしているため、非常に大きな影響を与えています。ここ数年、Transformer の登場により、シーケンス モデリングは大きな進歩を遂げました。これは主に、Transformer が GPU 並列処理を活用できる高性能アーキテクチャを提供しているためです。ただし、Transformer には、主にメモリとコンピューティング要件の 2 次拡張が原因で、推論中の計算オーバーヘッドが高く、低リソース環境 (モバイルや組み込みデバイスなど) でのアプリケーションが制限されます。 KV キャッシュなどのテクノロジーを使用して推論効率を向上させることはできますが、
    AI 687 2024-06-09 16:50:32
  • ガーゼを持ち、針をつかむNVIDIA、多くの大学と協力して手術ロボットを開発
    ガーゼを持ち、針をつかむNVIDIA、多くの大学と協力して手術ロボットを開発
    編集者 | NVIDIA は、トロント大学、カリフォルニア大学バークレー校、チューリッヒ工科大学、ジョージア工科大学の研究者と協力して、ロボットをトレーニングするためのシミュレーション フレームワークである ORBIT-Surgical を開発しました。これは、技術チームのスキルを向上させながら、作業の負担を軽減することができます。外科医の認知負荷。 ORBIT-Surgical は、仮想手術環境とインテリジェントなコーチング システムを通じて、非常に現実的な手術シミュレーションを実現する人工知能ベースのシミュレーション フレームワークです。医師はこのシステムを操作して、実際の手術のさまざまな状況や複雑さをシミュレートできます。このシミュレーション技術は、腹腔鏡手術を受ける患者の訓練に役立つだけでなく、
    AI 566 2024-06-09 13:23:16
  • CLIP は、RNN として使用すると CVPR として選択されます。トレーニングなしで無数の概念をセグメント化できます。オックスフォード大学と Google Research
    CLIP は、RNN として使用すると CVPR として選択されます。トレーニングなしで無数の概念をセグメント化できます。オックスフォード大学と Google Research
    CLIP は周期的に呼び出され、追加のトレーニングなしで無数の概念を効果的にセグメント化します。映画のキャラクター、ランドマーク、ブランド、一般的なカテゴリを含む任意のフレーズ。オックスフォード大学と Google Research の共同チームによるこの新しい成果は CVPR2024 に承認され、コードはオープンソース化されました。チームは、CLIPasRNN (略して CaR) と呼ばれる新しいテクノロジーを提案しました。これにより、オープンボキャブラリーの画像セグメンテーションの分野におけるいくつかの重要な問題が解決されます。トレーニング データは必要ありません。従来の方法では、微細なデータを得るために大量のマスク アノテーションまたは画像テキスト データセットが必要です。 -チューニング、CaR このテクノロジーは追加のトレーニング データなしで機能します。オープン語彙の制限: 事前トレーニングされたビジュアル言語モデル (VLM) は、微調整後のオープン語彙を処理する能力に制限があります。 C
    AI 530 2024-06-09 12:53:28
  • Huake らは、人間が踊るビデオ生成のための新しいフレームワークである UniAnimate を提案しました。
    Huake らは、人間が踊るビデオ生成のための新しいフレームワークである UniAnimate を提案しました。
    AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com ヒューマン ダンス ビデオの生成は、入力参照画像とターゲット ポーズ シーケンスに基づいて、高品質でリアルな画像を生成することを目的とした、魅力的でやりがいのある制御可能なビデオ合成タスクです。ビデオ生成技術の急速な発展、特に生成モデルの反復進化により、
    AI 1120 2024-06-09 11:10:58
  • PID およびカーネギーメロン大学よりも滑らかな制御アルゴリズム
    PID およびカーネギーメロン大学よりも滑らかな制御アルゴリズム
    MPC 制御アルゴリズム、正式名 ModelPredictiveControl (モデル予測制御) は、システム動的モデルに基づく制御技術です。これは、数学的モデルを通じてシステムの将来の動作を予測し、これらの予測に基づいてシステムの制御入力を最適化して、目的の出力を達成することによって機能します。 MPC 制御アルゴリズムの中心的な考え方は、各制御サイクルで将来の一定期間の予測結果を最適化することで、最適な制御入力を取得することです。この最適化は、所望の出力を達成するためにシステムの制御入力を最適化するためのいくつかの予測結果に基づいています。 MPC 制御アルゴリズムは広く使用されており、いくつかの制約を満たす必要がある制御システムに特に適しています。システムモデルと最適化技術を組み合わせることで、MP
    AI 880 2024-06-09 09:57:28
  • 砲撃スキャンダルにスタンフォードAI研究所所長激怒!盗作チームの 2 人のメンバーが責任を負い、1 人が失踪し、彼の犯罪歴が暴露されました。ネチズン: 中国のオープンソース モデルを再理解する。
    砲撃スキャンダルにスタンフォードAI研究所所長激怒!盗作チームの 2 人のメンバーが責任を負い、1 人が失踪し、彼の犯罪歴が暴露されました。ネチズン: 中国のオープンソース モデルを再理解する。
    スタンフォード大学のチームが清華大学の大規模なモデルを盗用したという事件はその後に起きた。Llama3-V チームは盗作を認め、スタンフォード大学の学部生のうち 2 人は別の著者と絶縁さえした。最新の謝罪ツイートはSiddharthSharma氏とAkshGarg氏によって送信された。その中にはいないが、南カリフォルニア大学のムスタファ・アルジャデリ(略してラオ・ムー)は主な過失当事者として告発されており、昨日から行方不明となっている。昨日から彼と連絡が取れません。 Siddharth、私 (Akshi)、Lao Mu が Llama3-V をリリースし、Lao Mu がプロジェクトのコードを書きました。シッダースと私の役割は、彼が Medium と T を始めるのを手伝うことです
    AI 1354 2024-06-09 09:38:08
  • 再び OpenAI に傍受された Google は、オープンソースのビジュアル言語モデルである PaliGemma を立ち上げました。
    再び OpenAI に傍受された Google は、オープンソースのビジュアル言語モデルである PaliGemma を立ち上げました。
    はじめに このモデルは、SigLIP 視覚モデルと Gemma 言語モデルを組み合わせたもので、どちらもオープン コンポーネントであり、PaliGemma は視覚と言語を組み合わせたタスクの処理に優れています。 PaliGemma の使用シナリオには、画像字幕、画像タグ、視覚的な質問応答が含まれます。これらのアプリケーション シナリオでは、画像コンテンツを理解して主要な特徴を抽出し、この情報を言語出力に変換する PaliGemma の機能を利用して、ユーザーとの対話やコンテンツの自動生成を可能にします。この柔軟性により、PaliGemma は研究開発環境だけでなく、顧客サービス、コンテンツ推奨システムなどの商用アプリケーションにも適しています。 PaliGemma では何ができるのでしょうか? プロンプトが表示された場合、写真を使用できます。
    AI 685 2024-06-09 09:17:06
  • LightGBM実戦+ランダム探索パラメータ調整:命中率96.67%
    LightGBM実戦+ランダム探索パラメータ調整:命中率96.67%
    皆さんこんにちは、ピーターです。LightGBM は古典的な機械学習アルゴリズムであり、その背景、原理、特性は非常に研究する価値があります。 LightGBM のアルゴリズムは、効率、拡張性、高精度などの機能をもたらします。この記事では、LightGBM の特徴と原理、および LightGBM とランダム検索最適化に基づくいくつかの事例を簡単に紹介します。 LightGBM アルゴリズム 機械学習の分野では、勾配ブースティング マシン (GBM) は強力なアンサンブル学習アルゴリズムのクラスであり、弱い学習器 (通常は決定木) を徐々に追加して予測誤差を最小限に抑えることによって強力なモデルを構築します。 GBM は、事前の処理を最小限に抑えるためによく使用されます。
    AI 782 2024-06-08 22:45:30
  • Mistral オープン ソース コード モデルが王位を獲得します。 Codestral は 80 を超える言語でのトレーニングに熱心に取り組んでおり、国内の Tongyi 開発者が参加を求めています。
    Mistral オープン ソース コード モデルが王位を獲得します。 Codestral は 80 を超える言語でのトレーニングに熱心に取り組んでおり、国内の Tongyi 開発者が参加を求めています。
    51CTO Technology Stack (WeChat ID: blog51cto) が制作、Mistral は最初のコードモデル Codestral-22B をリリースしました!このモデルのすごいところは、多くのコード モデルが無視する Swift などを含む 80 以上のプログラミング言語でトレーニングされていることだけではありません。それらの速度はまったく同じではありません。 Go言語を使用して「パブリッシュ/サブスクライブ」システムを記述する必要があります。ここでは GPT-4o が出力されており、Codestral は、見るのが難しいほど高速で論文を提出しています。発売されたばかりのモデルのため、まだ公的テストは行われていない。しかし、Mistral の担当者によると、Codestral は現在最もパフォーマンスの高いオープンソース コード モデルであるとのことです。写真に興味のある友達は次の場所に移動できます: - 顔を抱きしめる: https
    AI 1279 2024-06-08 21:55:01
  • 「クローズド ループ」に向けて | PlanAgent: MLLM に基づく自動運転のクローズド ループ プランニングのための新しい SOTA!
    「クローズド ループ」に向けて | PlanAgent: MLLM に基づく自動運転のクローズド ループ プランニングのための新しい SOTA!
    中国科学院オートメーション研究所の深層強化学習チームは、Li Auto氏らとともに、マルチモーダル大規模言語モデルMLLM(PlanAgent)に基づく自動運転のための新しい閉ループ計画フレームワークを提案した。この手法は、シーンの鳥瞰図とグラフベースのテキスト プロンプトを入力として受け取り、マルチモーダル大規模言語モデルのマルチモーダル理解機能と常識推論機能を利用して、シーンの理解から生成までの階層的推論を実行します。水平移動と垂直移動の指示を作成し、プランナーが必要とする指示をさらに生成します。このメソッドは、大規模で困難な nuPlan ベンチマークでテストされており、実験では、PlanAgent が通常のシナリオとロングテール シナリオの両方で最先端 (SOTA) のパフォーマンスを達成することが示されています。従来の大規模言語モデル (LLM) メソッドと比較して、PlanAgent
    AI 512 2024-06-08 21:30:27
  • LLaVA をモジュール的に再構築します。コンポーネントを置き換えるには、1 ~ 2 個のファイルを追加するだけです。オープンソースの TinyLLaVA Factory がここにあります。
    LLaVA をモジュール的に再構築します。コンポーネントを置き換えるには、1 ~ 2 個のファイルを追加するだけです。オープンソースの TinyLLaVA Factory がここにあります。
    TinyLLaVA+ プロジェクトは、清華大学電子学部マルチメディア信号知能情報処理研究室 (MSIIP) の Wu Ji 教授のチームと、北航大学人工知能学部の Huang Lei 教授のチームによって共同で作成されました。清華大学の MSIIP 研究室は、インテリジェント医療、自然言語処理と知識発見、マルチモダリティなどの研究分野に長年取り組んできました。北京航空のチームは、ディープラーニング、マルチモダリティ、コンピュータービジョンなどの研究分野に長年取り組んできました。 TinyLLaVA+ プロジェクトの目標は、言語理解、質疑応答、対話などのマルチモーダル機能を備えた小型の言語を越えたインテリジェント アシスタントを開発することです。プロジェクトチームはそれぞれの利点を最大限に発揮し、技術的課題を共同で克服し、インテリジェントアシスタントの設計と開発を実現していきます。これにより、インテリジェントな医療、自然言語処理、知識の機会が提供されます。
    AI 594 2024-06-08 21:21:29
  • 米国はロボット工学の応用において大きく遅れをとっているのでしょうか? 15年後、上位10大学が「国家ロボット工学ロードマップ」を再スタート
    米国はロボット工学の応用において大きく遅れをとっているのでしょうか? 15年後、上位10大学が「国家ロボット工学ロードマップ」を再スタート
    ロボット技術には70年の歴史があり、その黎明期から米国がリードし続けています。米国が初めて国家ロボット工学ロードマップを発表した2009年の時点で、米国の産業用途(自動車、航空宇宙、家電など)への応用は世界第4位に落ちている。 2015 年以来、米国はロボット技術の採用を増やし続け、世界第 10 位にランクされています。アジアのロボット市場は米国市場の 5 ~ 10 倍に拡大しています。中国はこの分野で「はるかに先を行っている」 2023 年には、販売されたロボットの約 52% を中国が購入しており、ロボット工学がもはや米国の国家的優先事項ではないことを示している。ごく最近では、カリフォルニア大学ペンシルベニア校から
    AI 1142 2024-06-08 20:57:00
  • MIT の最新傑作: GPT-3.5 を使用して時系列異常検出の問題を解決する
    MIT の最新傑作: GPT-3.5 を使用して時系列異常検出の問題を解決する
    今日は、MIT が先週公開した記事を紹介します。GPT-3.5-turbo を使用して時系列異常検出の問題を解決し、時系列異常検出における LLM の有効性を最初に検証しました。プロセス全体に微調整はなく、GPT-3.5-turbo は異常検出に直接使用されます。この記事の核心は、時系列を GPT-3.5-turbo が認識できる入力に変換する方法とその設計方法です。 LLM が異常検出タスクを解決できるようにするためのプロンプトまたはパイプライン。この作品について詳しく紹介していきます。画像用紙タイトル:Large languagemodelscanbeゼロショタノマリデテ
    AI 747 2024-06-08 18:09:01
  • Microsoft Build カンファレンスでは、Fabric、PostgreSQL、Cosmos DB が AI の強化を受けました
    Microsoft Build カンファレンスでは、Fabric、PostgreSQL、Cosmos DB が AI の強化を受けました
    Microsoft は最近、Build カンファレンスで、クラウド データベース管理製品の新しい人工知能機能を含む約 60 件の発表を発表しました。昨年立ち上げた同社の統合データプラットフォームであるファブリックは大きな恩恵を受けている。現在プレビュー段階にあるワークロード開発キット (ワークロード開発キット) を使用して、ファブリック内のアプリケーションを拡張できます。 FabricDataSharing は、ユーザーおよびアプリケーション間でリアルタイム データを処理する新機能です。外部ソースに保存されたデータにアクセスするためのアプリケーション プログラミング インターフェイスが含まれています。新しい自動化機能 (オートメーション) により、反復的なタスクが簡素化されます。 Fusion システム全体はまったく新しい RESTfu です
    AI 1111 2024-06-08 17:46:24

ツールの推奨事項

jQuery エンタープライズ メッセージ フォームの連絡先コード

jQuery エンタープライズ メッセージ フォーム連絡先コードは、シンプルで実用的なエンタープライズ メッセージ フォームおよび連絡先紹介ページ コードです。

HTML5 MP3 オルゴール再生効果

HTML5 MP3 オルゴール再生特殊効果は、HTML5 + css3 に基づく MP3 音楽プレーヤーで、かわいいオルゴールの絵文字を作成し、スイッチ ボタンをクリックします。

HTML5 クールなパーティクル アニメーション ナビゲーション メニューの特殊効果

HTML5 クールなパーティクル アニメーションのナビゲーション メニュー特殊効果は、ナビゲーション メニューにマウスを置くと色が変化する特殊効果です。

jQuery ビジュアル フォームのドラッグ アンド ドロップ編集コード

jQuery ビジュアル フォームのドラッグ アンド ドロップ編集コードは、jQuery およびブートストラップ フレームワークに基づいたビジュアル フォームです。

有機果物と野菜のサプライヤー Web テンプレート Bootstrap5

有機果物と野菜のサプライヤー Web テンプレート-Bootstrap5

Bootstrap3 多機能データ情報バックグラウンド管理レスポンシブ Web ページ テンプレート-Novus

Bootstrap3 多機能データ情報バックグラウンド管理レスポンシブ Web ページ テンプレート-Novus

不動産リソース サービス プラットフォーム Web ページ テンプレート Bootstrap5

不動産リソース サービス プラットフォーム Web ページ テンプレート Bootstrap5

シンプルな履歴書情報 Web テンプレート Bootstrap4

シンプルな履歴書情報 Web テンプレート Bootstrap4

かわいい夏の要素のベクター素材 (EPS+PNG)

これは、太陽、日よけ帽子、ココナッツの木、ビキニ、飛行機、スイカ、アイスクリーム、アイスクリーム、冷たい飲み物、浮き輪、ビーチサンダル、パイナップル、巻貝、貝殻、ヒトデ、カニを含む、かわいい夏の要素のベクター素材です。 、レモン、日焼け止め、サングラスなど、素材は JPG プレビューを含む EPS および PNG 形式で提供されています。
PNG素材
2024-05-09

4 つの赤い 2023 卒業バッジ ベクター素材 (AI+EPS+PNG)

これは、2023 年卒業バッジの赤いベクター素材で、合計 4 つがあり、JPG プレビューを含む AI、EPS、PNG 形式で利用できます。
PNG素材
2024-02-29

歌う鳥と花がいっぱいのカートデザイン春のバナーベクター素材(AI+EPS)

これは、さえずる鳥と​​花でいっぱいのカートをデザインした春のバナー ベクター素材で、JPG プレビューを含む AI および EPS 形式で利用できます。
バナー画像
2024-02-29

金色の卒業帽ベクター素材(EPS+PNG)

これは、JPG プレビューを含む EPS および PNG 形式で利用できる、金色の卒業帽のベクター素材です。
PNG素材
2024-02-27

室内装飾クリーニングおよび修理サービス会社のウェブサイトのテンプレート

家の装飾のクリーニングとメンテナンス サービス会社の Web サイト テンプレートは、家の装飾、クリーニング、メンテナンス、その他のサービス組織を提供するプロモーション Web サイトに適した Web サイト テンプレートのダウンロードです。ヒント: このテンプレートは Google フォント ライブラリを呼び出すため、ページが開くのが遅くなる場合があります。

フレッシュカラーの個人履歴書ガイドページテンプレート

フレッシュカラーマッチング個人求人応募履歴書ガイドページテンプレートは、フレッシュカラーマッチングスタイルに適した個人求人検索履歴書仕事表示ガイドページWebテンプレートのダウンロードです。ヒント: このテンプレートは Google フォント ライブラリを呼び出すため、ページが開くのが遅くなる場合があります。

デザイナーのクリエイティブな仕事の履歴書 Web テンプレート

デザイナー クリエイティブ ジョブ履歴書 Web テンプレートは、さまざまなデザイナーのポジションに適した個人の職務履歴書表示用のダウンロード可能な Web テンプレートです。ヒント: このテンプレートは Google フォント ライブラリを呼び出すため、ページが開くのが遅くなる場合があります。

現代のエンジニアリング建設会社のウェブサイトのテンプレート

最新のエンジニアリングおよび建設会社の Web サイト テンプレートは、エンジニアリングおよび建設サービス業界の宣伝に適したダウンロード可能な Web サイト テンプレートです。ヒント: このテンプレートは Google フォント ライブラリを呼び出すため、ページが開くのが遅くなる場合があります。