現在位置:ホームページ > 技術記事 > テクノロジー周辺機器 > AI
- 方向:
- 全て ウェブ3.0 バックエンド開発 ウェブフロントエンド データベース 運用・保守 開発ツール PHPフレームワーク 毎日のプログラミング WeChat アプレット よくある問題 他の 技術 CMS チュートリアル Java システムチュートリアル コンピューターのチュートリアル ハードウェアチュートリアル モバイルチュートリアル ソフトウェアチュートリアル モバイル ゲームのチュートリアル
- 分類する:
-
- Doubao Big Model Team が、VLM キャプション評価の信頼性を向上させるための新しい詳細画像キャプション評価ベンチマークをリリース
- AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 現在の視覚言語モデル (VLM) は、主に QA の質問と回答形式を通じてパフォーマンス評価を実行しますが、信頼できる評価方法など、モデルの基本的な理解の評価が不足しています。詳細画像キャプションのパフォーマンス。この問題を受けて、中国科学院は、
- AI 927 2024-07-18 20:10:02
-
- 中国サムスンギャラクシーZシリーズ新製品アクセスビーンバッグ大型モデル
- 7月17日、サムスン電子は中国市場向けに新世代のGalaxy Zシリーズ製品を発売した。この会議で、サムスン電子とボルケーノエンジンは、携帯電話のスマートアプリケーションエクスペリエンスを強化するために、ビーンバッグモデルをGalaxy Z Fold6およびGalaxy Z Flip 6携帯電話のスマートアシスタントおよびAIビジョンに接続するための協力を正式に発表した。サムスンはこれまで、海外の新製品発表会でGoogle Geminiとの緊密な協力を発表しており、中国ではVolcano Engineなどのメーカーを大型モデルのパートナーとして選定した。 fenyeキャプション:Samsung Galaxy Z Fold6とGalaxy Z Flip 6携帯電話のスマートアシスタントとAIビジュアルアクセスビーンバッグモデルには、サークル検索、リアルタイム翻訳、録音文字起こしなどのAI機能が公開されています。 、など、今回は
- AI 646 2024-07-18 20:07:33
-
- ビジュアルエンコーダを放棄したこの「ネイティブバージョン」マルチモーダル大規模モデルは、主流の手法にも匹敵します
- AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Diao Haiwen は大連理工大学の博士課程の学生であり、彼の指導教員は Lu Huchuan 教授です。現在、北京知源人工知能研究所でインターン中の王新龍博士が講師を務めています。彼の研究対象は、視覚と言語、大型モデルの効率的な転送、マルチモーダル大型モデルなどです。一緒にCuiを作りましょう
- AI 423 2024-07-18 19:21:11
-
- これらの VLM はすべて盲目なのでしょうか? GPT-4oとSonnet-3.5は「視覚」テストに連続して不合格となった
- 4 つの主要な VLM はすべて視覚障害者をだまそうとしているのでしょうか?最も人気のある SOTA モデル (GPT-4o、Gemini-1.5、Sonnet-3、Sonnet-3.5) に 2 つの線の間にある交差の数を数えてみましょう。それらは人間よりも優れたパフォーマンスを発揮しますか?答えはおそらくノーです。 GPT-4V の発表以来、ビジュアル言語モデル (VLM) により、大規模モデルの知能が私たちが想像する人工知能のレベルに大きく近づきました。 VLM は、画像を理解し、目に見えるものを言語で説明し、これらの理解に基づいて複雑なタスクを実行できます。たとえば、VLM モデルに食卓の写真とメニューの写真を送信すると、2 つの写真からビール瓶の本数とメニューの単価を抽出して計算できます。
- AI 690 2024-07-18 18:18:02
-
- MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。
- AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com グローバル カメラの動きでもローカル カメラの動きでも、トレーニングや微調整は必要ありません。体の動きはワンクリックで行えます。論文: https://arxiv.org/abs/2406.05
- AI 1045 2024-07-18 17:06:12
-
- 人間が AI を模倣するための新しい軌道、AI: 狂気に関して言えば、あなたは私の父です
- 機械の力に関するレポートの編集者: ヤン・ウェンの AI は人間によって誤って導かれました!この世界は本当にクレイジーです... 最近、AI の旗印の下、本物の人々が AI でコスプレする面白いビデオがソーシャル メディアに大量に登場しており、Douyin は人間模倣 AI コンテストというホットなトピックさえ持っています。 (Douyin ブロガー「Guan Ni Luan Shi」からのビデオ) ビデオリンク: https://mp.weixin.qq.com/s/1DVc8skecSsO0a9QcklZlwルーチンはすべて同じです。左側は古い写真、右側は「AI 修復」です。右」の字幕では、脳幹を失った血なまぐさい「陰謀」が実際に本物の人々によって実行されています。 -1-AI: なりすましを受けるのは初めてでしたが、私のなりすましよりひどいものになるとは予想していませんでした。
- AI 1788 2024-07-18 16:51:08
-
- 大規模モデルの推論効率を損失なく 3 倍向上させた EAGLE をウォータールー大学、北京大学などがリリースしました。
- 大規模言語モデル (LLM) は、さまざまな分野でますます使用されています。ただし、テキスト生成プロセスは高価で時間がかかります。この非効率性は、自己回帰デコードの動作ルールに起因します。つまり、各単語 (トークン) の生成には順方向伝播が必要であり、数十億から数千億のパラメータの LLM へのアクセスが必要です。その結果、従来の自己回帰デコードが遅くなります。最近、ウォータールー大学、カナダ ベクトル研究所、北京大学、その他の機関が共同で EAGLE をリリースしました。これは、モデル出力テキストの一貫した配布を確保しながら、大規模な言語モデルの推論速度を向上させることを目的としています。この方法では、LLM の 2 番目のトップレベルの特徴ベクトルが外挿され、生成効率が大幅に向上します。技術レポート: https://sites.google.com/view
- AI 1044 2024-07-18 14:43:48
-
- エージェントの実際のパフォーマンスを効果的に評価するための、新しいオンライン評価フレームワーク WebCanvas が登場しました
- パン・イーチェンさん:浙江大学修士課程1年生。 Kong Dehan: Cross Star Technology のモデル アルゴリズム責任者。周思達氏: 2024 年に南昌大学を卒業し、西安電子科学技術大学で修士号を取得する予定です。 Cui Cheng: 浙江中医薬大学を 2024 年に卒業し、蘇州大学で修士号を取得する予定です。 Pan Yichen、Zhou Sida、および Cui Cheng は、Cross Star Technology のアルゴリズム インターンとして共同でこの論文の研究作業を完了しました。今日の急速な技術開発の時代において、大規模言語モデル (LLM) は、前例のないスピードでデジタル世界と対話する方法を変えています。 LLM ベースのインテリジェント エージェント (LLMAgent) は、単純な情報検索から複雑な Web ページ操作まで徐々に統合されています。
- AI 636 2024-07-18 14:04:51
-
- AKOOL がカンヌ広告賞を支援し、革新的なリアルタイム デジタル ヒューマン プラットフォームを開始
- 2024 年のヨーロッパカップが本格化する中、フランスの通信会社オレンジが作成したサッカーの試合ビデオもすぐに人気になりました。ビデオでは、ムバッペ、ジルー、グリーズマンの姿が見られました...実際、コートを走るすべての選手は生身の人間ではなく、人工知能によって生成された仮想キャラクターです。卓越したクリエイティビティとユニークさで、本作は今年のカンヌライオンズ国際クリエイティビティ・フェスティバルにおいて、広告クリエイティブ・マーケティング業界の「オスカー」、つまりスポーツ部門賞を受賞した。 AKOOL は、この受賞歴のある作品に対して中核的な技術サポートを提供しました。同社が開発したAIフェイシャルキャプチャシステムは、緻密に設計されたレンダリング技術により、作品内の仮想キャラクターの微妙な表情や動きを正確に捉えることができる。
- AI 565 2024-07-18 09:26:11
-
- 178 ページ、128 症例、医療分野における GPT-4V の総合評価、臨床応用と実際の意思決定にはまだ遠い
- 上海交通大学と上海AILabは178ページのGPT-4V医療症例レビューを発表し、医療分野におけるGPT-4Vの視覚的性能を初めて包括的に明らかにした。大規模な基本モデルを原動力として、人工知能の開発は最近大きく進歩しており、特に OpenAI の GPT-4 の質疑応答と知識における強力な機能は、AI 分野で新たな瞬間を引き起こし、広く一般に知られています。懸念。 GPT-4V(ision)はOpenAIの最新マルチモーダル基本モデルです。 GPT-4 と比較して、画像と音声の入力機能が追加されています。この研究は、症例分析を通じてマルチモーダル医療診断分野における GPT-4V(ision) のパフォーマンスを評価することを目的としています。
- AI 1262 2024-07-18 06:20:10
-
- ICML 2024 AI for Math ワークショップの論文募集とチャレンジが開始されました!
- ICML2024、形式言語および自然言語 AI の数学的推論に関する AIforMathWorkshop ワークショップ 時間: 2024 年 7 月 26/27 日 場所: オーストリア、ウィーン。会場とオンラインで同時開催。ワークショップのホームページ: https://sites.google.com/view/ai4mathworkshopicml2024/ 数学的推論は、人間の知性の中で最も挑戦的で奥深い部分です。数学的推論の発展過程で、人間は数学的問題や証明プロセスを厳密に記述することができるさまざまな形式言語を要約してきました。近年、機械学習アルゴリズムと大規模言語モデルは、一部の数学的推論において人間のパフォーマンスに徐々に近づいたり、それを超えたりしています。
- AI 753 2024-07-18 05:36:50
-
- Meta は System 2 蒸留技術を開発し、Llama 2 対話モデル タスクの精度は 100% に近い
- 研究者らは、System2の蒸留が将来の継続学習AIシステムの重要な機能になれば、System2のパフォーマンスがそれほど良くない推論タスクのパフォーマンスをさらに向上させることができると述べた。大規模言語モデル (LLM) 戦略に関しては、一般に 2 つのタイプがあり、1 つは即時型 System1 (高速応答)、もう 1 つは System2 (遅い思考) です。 System2 推論が思慮深い思考を支持するのに対し、生成中間思考ではモデル (または人間) が推論して計画を立てて、タスクを正常に完了したり、指示に応答したりできるようにします。システム 2 の推論では、特にシステム 1 (より自動的な思考) が間違っている可能性がある状況では、努力した精神活動が必要です。したがって、システム 1 は、
- AI 1175 2024-07-18 05:07:20
-
- 当事者 A の実際の AGI ニーズに直接対処するために、人工知能エンパワーメント産業統合開発フォーラムが成功裡に開催されました。
- 7月6日、「2024 WAIC人工知能エンパワーメント産業統合開発フォーラム」が万博展示コンベンションセンターで盛大に開催された。このフォーラムの主なトピックは、新しい産業化を促進し、産業統合の発展を促進する人工知能に関連する問題について議論することです。これには、指導者演説、調印式、基調講演、中央および国有企業向けの人工知能シナリオ要件のリリース、およびラウンドテーブルフォーラム。中国電子情報産業発展研究院、中国移動研究院、シノペック勝利油田、国家グリッド顧客サービスセンター、中国電子余荘、中国南方電力網デジタルグリッドグループ、中国電力網デジタルグリッドグループなど、中央国有企業や人工知能分野の多くの企業が参加した。 Damo Institute、Baidu Smart Cloud、Innovation Qizhi などカンファレンスに参加したゲストは、さまざまな分野での人工知能の応用実践、大規模モデルの開発と応用、インテリジェントな運用とメンテナンスに焦点を当てました。
- AI 575 2024-07-18 03:14:57
-
- おしゃれなAIGCマーケターはどうすれば「lizi」と「face」の間でwin-winの関係を実現できるのでしょうか?
- マーケティング分野における AIGC テクノロジーの革新とセキュリティ 過去 1 年間、AI テクノロジーはあらゆる分野で変化の波を引き起こしました。 AIGC テクノロジーを最初に取り入れたのは、常に「流行」を重視してきたマーケティング界です。関連データによると、2023 年には我が国の広告主のほぼ半数がオンライン マーケティング活動に AIGC テクノロジーを適用し、これらのアプリケーションの 90% 以上がコンテンツ作成とクリエイティブ開発に焦点を当てていることが示されています。この新しいテクノロジー主導の広告およびマーケティング モデルは徐々に具体化しており、広告主にコストを削減し効率を向上させる可能性がさらに広がります。しかし、AIGCテクノロジーはマーケティング分野で大いに活用されていますが、多くの課題も抱えています。たとえば、AIGC テクノロジーはマーケティング資料を作成する際にコンテンツ リスクを引き起こす可能性があり、多額の投資を行ったマーケティング活動が誤って違法製品のウェディング ドレスとして機能する可能性があります。それで、
- AI 874 2024-07-18 01:41:21
-
- ICML 2024 | グラデーションチェックポイント設定が遅すぎますか? LowMemoryBP は、ビデオ メモリの速度を低下させたり節約したりすることなく、バック プロパゲーション ビデオ メモリの効率を大幅に向上させます。
- AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この記事の筆頭著者は南開大学統計データサイエンス学部修士2年生のYang Yuchen氏であり、彼の指導教員はXu Jun准教授です。南開大学統計データサイエンス学部卒業。 Xu Jun 教授のチームの研究の焦点は、コンピューター ビジョン、生成 AI、効率的な機械学習であり、最先端の研究に取り組んでいます。
- AI 775 2024-07-18 01:39:51