現在位置:ホームページ > 技術記事 > テクノロジー周辺機器 > AI
- 方向:
- 全て ウェブ3.0 バックエンド開発 ウェブフロントエンド データベース 運用・保守 開発ツール PHPフレームワーク 毎日のプログラミング WeChat アプレット よくある問題 他の 技術 CMS チュートリアル Java システムチュートリアル コンピューターのチュートリアル ハードウェアチュートリアル モバイルチュートリアル ソフトウェアチュートリアル モバイル ゲームのチュートリアル
- 分類する:
-
- HKU Byte は、まず人間の知覚をシミュレートし、次に認知をシミュレートして、画像内のオブジェクトの位置を正確に特定する、マルチモーダル大規模モデルの新しいパラダイムを提案します
- 現在、マルチモーダル大規模モデル (MLLM) は、複数の視覚タスクに対する強力な認知理解能力を実証しています。ただし、ほとんどの大規模なマルチモーダル モデルは一方向の画像理解に限定されているため、理解したコンテンツを画像にマッピングし直すことが困難になります。たとえば、モデルは写真内にどのようなオブジェクトがあるかを簡単に判断できますが、写真内のオブジェクトを正確に識別することはできません。測位機能の欠如は、画像編集、自動運転、ロボット制御などの下流分野でのマルチモーダル大型モデルの応用を直接的に制限します。この問題に対応して、香港大学とバイトダンス商用化チームの研究者は、地域画像コーディングを使用してマルチモーダル大規模モデルの知覚測位機能を向上させる新しいパラダイムである Groma を提案しました。位置決めを統合した後、Groma はテキスト コンテンツと画像領域を直接関連付けて表示できます。
- AI 711 2024-06-12 22:18:00
-
- 清華大学と Zhipu AI オープンソース GLM-4: 自然言語処理に新たな革命を起こす
- 2023 年 3 月 14 日に ChatGLM-6B が発売されて以来、GLM シリーズ モデルは幅広い注目と認知を得てきました。特にChatGLM3-6Bがオープンソース化されてからは、Zhipu AIが投入する第4世代モデルに対する開発者の期待が高まっている。 GLM-4-9B のリリースにより、この期待はついに完全に満たされました。 GLM-4-9B の誕生 小型モデル (10B 以下) により強力な機能を提供するために、GLM 技術チームはこの新しい第 4 世代 GLM シリーズ オープン ソース モデル、GLM-4-9B をほぼ半年の期間を経て発売しました。探検。このモデルは、精度を確保しながらモデルサイズを大幅に圧縮し、推論速度の高速化と効率化を実現しています。 GLM 技術チームの調査はまだ終わっていない
- AI 824 2024-06-12 20:38:02
-
- 7B? 13B? 175B?大規模モデルのパラメータを解釈する
- また、大小のモデルがあり、そのサイズはパラメータの数によって測定されます。 GPT-3 には 175 億のパラメータがあり、Grok-1 にはさらに優れた 314 億のパラメータがあります。もちろん、ラマのような、パラメータの数が 70 億から 700 億の間にしかない、よりスリムなものもあります。ここで言及されている 70B は、トレーニング データの量を指すのではなく、モデル内に密に詰め込まれたパラメーターを指す場合があります。これらのパラメータは小さな「脳細胞」のようなもので、パラメータが多ければ多いほど、モデルはより賢くなり、データ内の複雑な関係をより良く理解できるようになります。これらの「脳細胞」を使用すると、モデルのタスクのパフォーマンスが向上する可能性があります。ただし、多くの場合、特に大規模モデルでは、これらのパラメーターが問題を引き起こす可能性があります。この「脳細胞」は、
- AI 745 2024-06-12 20:04:15
-
- YoloCS: 特徴マップの空間の複雑さを効果的に軽減します
- 論文アドレス: YOLOCS:ObjectDetectionbasedonDenseChannelCompressionforFeatureSpatialSolidification(arxiv.org)01 概要 今日の共有では、研究者らは、ネットワーク内の順方向伝播と逆方向伝播のフロントエンドに焦点を当てて、特徴精製と勾配逆伝播中のチャネル特徴と畳み込みカーネルの間の相関を調べました。そこで研究者らは、高密度チャネル圧縮と呼ばれる特徴空間固定化手法を提案した。この方法の核となる概念に基づいて、バックボーンおよびヘッド ネットワーク用の 2 つの革新的なモジュールが導入されています。特徴空間固定化のための高密度チャネル圧縮 (DCFS) と非対称多段階圧縮です。
- AI 332 2024-06-12 17:49:26
-
- メタは GPT-4o に挑戦するために「カメレオン」を立ち上げ、34B パラメータがマルチモーダル革命をリードします! 10兆トークントレーニングがSOTAを更新
- GPT-4o の登場により、マルチモーダル モデル開発の新しいパラダイムが再び生まれました。なぜそんなことを言うのですか? OpenAI はこれを「最初の「ネイティブ」マルチモーダル」モデルと呼んでいます。これは、GPT-4o が以前のすべてのモデルとは異なることを意味します。従来のマルチモーダル基本モデルは通常、各モダリティに特定の「エンコーダー」または「デコーダー」を使用して、異なるモダリティを分離します。ただし、このアプローチでは、クロスモーダル情報を効果的に融合するモデルの能力が制限されます。 GPT-4o は、テキスト、ビジュアル、オーディオの各モードにまたがる「初のエンドツーエンド」トレーニング済みモデルであり、すべての入力と出力が単一のニューラル ネットワークによって処理されます。そして今、GPT-4oに果敢に挑戦した業界初モデルが登場!最近、メタグループから
- AI 824 2024-06-12 13:18:58
-
- 3倍の生成速度とメモリコストの削減、Medusa2を超える効率的なデコードフレームワークがついに登場
- n トークン シーケンス、CLLMs+Jacobi デコード フレームワークを効率的にデコードします。従来、大規模言語モデル (LLM) は、各トークンを 1 つずつデコードする逐次デコーダーとして考えられていました。上海交通大学とカリフォルニア大学の研究チームは、事前トレーニングされた LLM を効率的な並列デコーダになるように簡単に教育できることを示し、推論遅延を削減できる Consistent Large Language Model (CLLM) と呼ばれる新しい並列デコーダ ファミリを導入しました。各推論ステップで n トークンのシーケンスを効率的にデコードすることによって。この論文の研究では、「人間が頭の中で完全な文章を形成した後、一語一語表現するために使用する認知プロセスを模倣することは、事前にトレーニングされた LLM を微調整するだけで効果的に学習できる」ことが示されています。
- AI 920 2024-06-12 11:55:28
-
- 仕事を辞めた後のイリヤの最初の行動: この論文が気に入ったので、ネチズンは急いで読みました
- Ilya Sutskever 氏が OpenAI からの辞任を正式に発表して以来、彼の次の行動がみんなの注目を集めています。彼の一挙手一投足に注目する人もいた。いいえ、イリヤは新しい論文が気に入っただけです❤️ - ネチズンはそれに飛びつきました。論文は MIT からのもので、著者は仮説を提唱しました。次のような一文に要約されています。異なる目標を持つ異なるデータとモダリティで訓練されたニューロ ネットワークは、次のような傾向にあります。表現空間内で現実世界の共有統計モデルを形成します。彼らは、プラトンの洞窟の寓意と理想的現実の性質に関する彼の考えにちなんで、この推測をプラトン表現仮説と名付けました。イリヤの選出はまだ保証されているが、一部のネチズンはこの作品を観た後、今年見た中で最高だと評した。
- AI 615 2024-06-12 11:22:14
-
- ナレッジグラフ検索用に強化された GraphRAG (Neo4j コードに基づいて実装)
- Graph Retrieval Enhanced Generation (GraphRAG) は徐々に普及しており、従来のベクトル検索方法を強力に補完するものとなっています。この方法では、グラフ データベースの構造的特徴を利用してデータをノードと関係の形式で編成し、それによって取得された情報の深さと文脈の関連性が強化されます。グラフには、相互に関連する多様な情報を表現および保存するという自然な利点があり、異なるデータ型間の複雑な関係やプロパティを簡単に把握できます。ベクトル データベースはこの種の構造化情報を処理できず、高次元ベクトルで表される非構造化データの処理に重点を置いています。 RAG アプリケーションでは、構造化グラフ データと非構造化テキスト ベクトル検索を組み合わせることで、両方の利点を同時に享受できます。これについてこの記事で説明します。構造
- AI 1092 2024-06-12 10:32:28
-
- 10,000 以上の人気のある Github コード ライブラリが組み込まれている Baidu が、Comate Code Knowledge Enhancement 2.0 を正式にリリースしました。
- 2019年5月18日、第7回iTechClub華北インターネット技術エリートサミットフォーラムが開催され、百度エンジニアリングパフォーマンス部門の責任者が「人間と機械のコラボレーションのためのAIネイティブ研究開発の新たなパラダイムに向けて」と題して基調講演を行った。彼は、Baidu のインテリジェント コード アシスタント Comate の最新成果である Comate Code Knowledge Enhancement 2.0 をリリースしました。これは、リアルタイム検索をサポートする中国初のインテリジェント コード アシスタントであり、これにより、10,000 以上の Github の人気コード ライブラリが組み込まれています。世界中の開発者に大きなメリットをもたらします。このカンファレンスのハイライトの 1 つとして、Comate Code Knowledge Enhancement 2.0 は出席者から大きな注目を集めました。インテリジェント コード アシスタント Comate は、インテリジェントなコード補完機能と
- AI 990 2024-06-11 22:45:15
-
- ワットあたりのパフォーマンスが 2.6 倍に向上し、ラック密度が 3 倍に向上する Intel 3 は、簡単に実現できるものではありません。
- 過去 10 年間で、ますます多くの企業が業務をクラウドに移行し、クラウド コンピューティングがデータ センター構築の主な原動力となっています。人工知能の継続的な発展、特に大規模言語モデルなどの AI テクノロジーの爆発的普及と広範な適用に伴い、コンピューティング能力に対する市場の需要も増加しており、データセンターの継続的な変革がさらに促進されています。現在、データセンターは、AI、Web、マイクロサービスなどのさまざまなワークロードのコンピューティング能力要件を満たす必要があるだけでなく、アーキテクチャ設計、電源、ラック密度、冷却と熱放散、TCO 削減などのさまざまな課題に対処する必要もあります。 、そして持続可能な開発。増大するコンピューティング能力のニーズと現代のデータセンターの多様なワークロードに対応するために、インテルは本日、インテル GTC テクノロジー エクスペリエンス センターで記者会見を開催し、新しいインテルをリリースしました。
- AI 857 2024-06-11 21:22:01
-
- VSCode フロントエンド開発の新時代: 強く推奨される 12 の AI コード アシスタント
- フロントエンド開発の世界では、VSCode はその強力な機能と豊富なプラグイン エコシステムにより、数多くの開発者に選ばれるツールとなっています。近年、人工知能技術の急速な発展に伴い、VSCode 上の AI コード アシスタントが登場し、開発者のコーディング効率が大幅に向上しました。 VSCode 上の AI コード アシスタントは雨後のキノコのように出現し、開発者のコーディング効率を大幅に向上させました。人工知能テクノロジーを使用してコードをインテリジェントに分析し、正確なコード補完、自動エラー修正、文法チェックなどの機能を提供することで、コーディング プロセス中の開発者のエラーや退屈な手作業を大幅に削減します。今日は、プログラミングの旅に役立つ 12 個の VSCode フロントエンド開発 AI コード アシスタントをお勧めします。
- AI 615 2024-06-11 19:47:09
-
- レビュー!自動運転推進におけるベーシックモデルの重要な役割を総まとめ
- 上記および著者の個人的な理解: 最近、ディープラーニング技術の発展と進歩により、大規模な基盤モデル (Foundation Model) が自然言語処理とコンピューター ビジョンの分野で大きな成果を上げています。自動運転における基本モデルの応用にも大きな発展の可能性があり、シナリオの理解と推論を向上させることができます。豊富な言語と視覚データの事前トレーニングを通じて、基本モデルは自動運転シナリオのさまざまな要素を理解して解釈し、推論を実行して、運転の意思決定と計画のための言語とアクションのコマンドを提供します。基本モデルは、運転シナリオを理解してデータを拡張することで、日常的な運転やデータ収集では遭遇する可能性が低い、ロングテール分布におけるまれな実現可能な機能を提供できます。
- AI 912 2024-06-11 17:29:58
-
- 微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります
- 大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。
- AI 861 2024-06-11 15:57:20
-
- 100年にわたる世界的な海洋脱酸素化を明らかに、上海交通大学は人工知能を利用して「窒息する海洋」を再構築するとICMLは発表
- 著者 | Lu Bin、Han Luyu 海洋溶存酸素は、海洋生態系の機能を維持するための重要な要素です。地球温暖化や人間活動の影響により、近年、海洋は貧酸素化傾向にあり、漁業の発展や気候変動などに深刻な影響を及ぼしています。最近、上海交通大学電子情報電気工学部のWang Xinbing教授とGan Xiaoying教授のチームと、上海交通大学海洋学部のZhang Jing学者、Zhou Lei教授、Zhou Yutao准教授のチームが共同研究を行った。大学は、まばらな海洋観測データに基づく深層学習モデル OxyGenerator を共同提案しました。 1920 年から 2023 年までの 100 年前の全球の海洋溶存酸素データが初めて再構築され、その再構築パフォーマンスは専門家の経験に基づいた CMIP6 シリーズの数値モデルの結果を大幅に上回りました。研究成果「オックス」
- AI 304 2024-06-11 12:04:58
-
- スマートビルディング: YOLOv7 に基づく建物外壁の欠陥検出
- 01 展望の概要 現在の深層学習ベースの手法は、認識速度とモデルの複雑さの点でいくつかの課題に直面しています。建物の外壁欠陥検出の精度と速度を確保するために、BFD-YOLO と呼ばれる改良型 YOLOv7 手法を研究しました。まず、YOLOv7 の元の ELAN モジュールが軽量の MobileOne モジュールに置き換えられ、パラメータの数が減り、推論速度が向上しました。次に、特徴抽出機能を強化するために、座標アテンション モジュールがモデルに追加されます。次に、SCYLLA-IoU を使用して検出を高速化し、モデルの再現率を高めます。最後に、オープン データセットを拡張し、3 つの典型的な欠陥を含む建物ファサード損傷データセットを構築しました。 BFD-YOLO は以下に基づいています
- AI 426 2024-06-11 12:01:31