深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データ-AI-php.cn

コンテキストとは何ですか?

コンテキストリッチなデータの設計

#機能を追加

概要

翻訳者紹介

ホームページ

テクノロジー周辺機器

深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データ

PHPz

Apr 11, 2023 pm 11:28 PM

データアルゴリズムディープラーニング

翻訳者 | Zhu Xianzhong

レビューアー | Sun Shujuan

この記事では、深層学習モデルの入力データを最適化する方法を共有したいと思います。データサイエンティストおよびデータエンジニアとして、私はこのテクニックを自分の仕事にうまく適用してきました。いくつかの具体的な実際の開発ケースを通じて、コンテキスト情報を使用してモデル入力データを強化する方法を学びます。これは、より堅牢で正確な深層学習モデルを設計するのに役立ちます。

深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データ

深層学習モデルは、コンテキスト情報の統合に優れているため、非常に強力です。元のデータの次元にいくつかのコンテキストを追加することで、ニューラルネットワークのパフォーマンスを向上させることができます。これは、賢いデータエンジニアリングによって実現できます。

新しい予測深層学習アルゴリズムを開発する場合、特定のユースケースに完全に適したモデルアーキテクチャを選択できます。入力データと実際の予測タスクに応じて、多くの方法を考えたことがあるかもしれません。画像を分類する予定がある場合は、畳み込みニューラルネットワークを選択する可能性が高く、時系列を予測したりテキストを分析したりする場合は、LSTM ネットワークを選択する可能性があります。有望な選択肢になるかもしれない。多くの場合、正しいモデルアーキテクチャに関する決定は、主にモデルに流入するデータの種類によって決まります。

その結果、正しい入力データ構造を見つける (つまり、モデルの入力層を定義する) ことが、モデル設計における最も重要なステップの 1 つになりました。私は通常、他の何よりも入力データの整形に多くの開発時間を費やします。明確にしておきますが、特定の生データ構造を扱う必要はなく、適切なモデルを見つけるだけです。ニューラルネットワークが内部で特徴エンジニアリングと特徴選択を処理できる (「エンドツーエンドモデリング」) という機能は、入力データの構造の最適化を免除するものではありません。モデルがデータから最大限の意味を引き出し、最も情報に基づいた意思決定 (つまり、最も正確な予測) を行えるような方法でデータを提供する必要があります。ここでの「秘密」の要素はコンテキスト情報です。つまり、生データを可能な限り多くのコンテキストで強化する必要があります。

コンテキストとは何ですか?

それでは、上記の「コンテキスト」とは具体的に何を意味するのでしょうか?例を挙げてみましょう。 Mary はデータサイエンティストであり、飲料小売会社の売上予測システムを開発するという新しい仕事を始めています。つまり、彼女のタスクは次のとおりです。特定の店舗と特定の製品 (レモネード、オレンジジュース、ビールなど) が与えられた場合、彼女のモデルは特定の店舗でのこの製品の将来の売上を予測できる必要があります。予測は、数百の異なる店舗で提供される数千の異なる製品に適用されます。これまでのところ、システムは正常に動作しています。 Mary の最初の日は営業部門で過ごしました。そこでは、経験豊かな営業会計士である Peters によって手作業ではありましたが、予測作業がすでに行われていました。彼女の目標は、分野の専門家が特定の製品に対する将来の需要をどのような基準で判断しているのかを理解することです。 Mary は優れたデータサイエンティストとして、どのデータがモデルにとってより価値があるかを定義する際に Peters の長年の経験が非常に役立つと期待しています。それを知るために、メアリーはピーターズに 2 つの質問をしました。

最初の質問: 「来月ベルリンの店舗で販売する特定のブランドのレモネードのボトル数を計算するために、どのようなデータを分析しましたか?そのデータをどのように解釈しましたか?」

Peters は次のように答えました。「時間が経つにつれて、私たちはベルリンでレモネードを販売する第一歩を踏み出しました。」次に、彼は自分の戦略を説明するために次のグラフを描きました。

深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データ

上のグラフでは、7 つのピークから始まる連続的な曲線があることがわかります。 4 月または 8 月 (ベルリン夏時間) に発生します。夏は気温が高くなるとおやつを食べたくなるので、商品の売り上げが伸びるのは非常に直感的です。より短い時間スケール (約 1 か月) では、おそらく予測不可能なイベント (ランダムノイズ) が原因で、売上が約 10 アイテムの範囲内で変動していることがわかります。

Peters 氏はさらに次のように続けました。「夏には売上が増加し、冬には売上が減少するという繰り返しのパターンを見ると、将来も同様のことが起こる可能性が高いと思います。したがって、私はそれに基づいて見積もりを立てています。可能性があります。販売」それは合理的に聞こえます。

ピーターズは、2 つのデータポイントの距離が時間差によって定義される、時間的なコンテキストで販売データを解釈します。データが時系列順に並んでいない場合、解釈が困難になります。たとえば、ヒストグラムの売上分布のみを確認すると、時間的なコンテキストが失われ、将来の売上の最良の推定値は、すべての値の中央値などの集計値になります。

データが特定の方法で並べ替えられると、コンテキストが表示されます。

言うまでもなく、データベースからの「自由な」コンテキストを保持するには、販売予測モデルに過去の販売データを正しい時系列で入力する必要があります。深層学習モデルは、私たちの脳 (この場合はもちろんピーターズの脳) と同様に、コンテキスト情報の統合に非常に優れているため、非常に強力です。

なぜディープラーニングが画像分類や画像オブジェクト検出に非常に効果的であるのか疑問に思ったことはありますか?なぜなら、通常の画像にはすでに多くの「自然な」コンテキストが存在するからです。画像は基本的に光強度のデータポイントであり、2 つの背景次元、つまり x 方向の空間距離と y 方向の空間間隔に従って配置されます。そして、アニメーション形式 (画像の時間シーケンス) としての映画は、3 番目の文脈上の次元として時間を追加します。

コンテキストは予測に非常に有益であるため、コンテキストディメンションをさらに追加することで、これらのディメンションが元のデータにすでに含まれている場合でも、モデルのパフォーマンスを向上させることができます。次に説明するように、私たちはいくつかの賢いデータエンジニアリング手法を通じてこれを実現しました。

モデルがデータから最大限の意味を汲み取り、最も情報に基づいた意思決定を行えるような方法でデータを提供する必要があります。私は通常、他の何よりも入力データの整形に多くの開発時間を費やします。

コンテキストリッチなデータの設計

Mary と Peters の議論に戻りましょう。 Mary は、ほとんどの場合、実際のデータは上のグラフほど良くないことを知っていたため、次のようにグラフを少し変更しました。

深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データ

メアリーが尋ねた 2 番目の質問は次のとおりでした。「最後の販売データポイントが通常のノイズレベルを超えていたらどうしますか? これは実際のシナリオである可能性があります。製品はマーケティングキャンペーンを成功させているのかもしれません。おそらく、レシピが変更され、今では「味が良くなる。このような場合、効果は長期にわたって持続し、将来の売上も同じ高水準を維持するだろう。あるいは、偶然の出来事による異常である可能性もある。例えば、学校の授業でベルリンを訪れていた人が、たまたまそこに足を踏み入れた」店と子供たち全員がこのレモネードブランドのボトルを購入しました。この場合、売上の伸びは安定しておらず、ノイズデータとしか考えられません。この場合、これが本当の売上になるかどうかをどのように判断しますか?ピーターズが答える前に頭をかいているのがわかります。「この場合、私はベルリンに似た店舗での売上を調べています。たとえば、ハンブルクとミュンヘンの店舗です。これらの店舗は同等です。」「なぜなら、それらの店舗はドイツの主要都市にもあるからです。地方の店舗は考えていません。そこには、異なる好みや好みを持つ異なる顧客がいると予想されるからです。」

彼は、考えられる 2 つのシナリオに他の店舗の売上曲線を追加しました。。「ベルリンで売上が増加しているのを見たら、それは騒音だと思います。しかし、ハンブルクとミュンヘンでレモネードの売上が増加しているのを見たら、それが安定化効果であることを願っています。」

深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データ

したがって、いくつかのかなり困難な状況では、ピーターズはより賢明な決定を下すためにより多くのデータを考慮します。彼は、さまざまな店舗のコンテキストにデータの新しい次元を追加します。前述したように、データが特定の方法で順序付けされると、コンテキストが発生します。ストアコンテキストを作成するには、まず距離測定を定義して、それに応じてさまざまなストアからのデータを順序付ける必要があります。たとえば、Peters では、店舗が所在する都市の規模に基づいて店舗を区別しています。

SQL および Numpy プログラミング手法を適用することで、モデルに同様のコンテキストを提供できます。まず、自社の店舗がある都市の人口規模を理解する必要があります。次に、人口の差に基づいてすべての店舗間の距離を測定します。最後に、すべての売上データを 2D マトリックスに結合します。時間、2 番目の次元は店舗の距離の指標です。

深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データ

図の売上マトリックスは、最近のレモネードの売上をわかりやすくまとめており、結果として得られるパターンを視覚的に説明できます。売上マトリックスの左下隅にあるデータポイントを見てください。これはベルリンの最新の売上データです。同様の店舗 (ハンバーガーなど) が売上の急激な増加を繰り返すことはないため、この明るい点は例外である可能性が高いことに注意してください。対照的に、7月の売上ピークは類似店舗で再現された。

したがって、コンテキストを作成するには、常に距離インジケーターを追加する必要があります。

ここで、Peters の声明を数学用語に変換します。この用語は、製品がある都市の人口規模に基づいてモデル化できます。新しいコンテキストディメンションを追加するときは、正しい距離メトリックを非常に慎重に検討する必要があります。それは、予測したいエンティティにどのような要因が影響するかによって異なります。影響を与える要因は完全に製品に依存するため、距離インジケーターはそれに応じて調整する必要があります。たとえば、ドイツでのビールの販売状況を見ると、消費者は地元のビール醸造所から製品を購入する可能性が高いことがわかります (全国には約 1,300 の異なるビール醸造所があります)。

ケルンの人は通常クルシュを飲みますが、30分ほど北に車を走らせてデュッセルドルフ地方に行くと、人々はクルシュを避け、より濃いモルタルのストロングアルトビールを好みます。したがって、ドイツのビールの販売の場合、店舗の距離を地理的な距離でモデル化するのが合理的な選択である可能性があります。ただし、これは他の製品カテゴリ (レモネード、オレンジジュース、スポーツドリンクなど) には当てはまりません。

追加のコンテキストディメンションを追加したため、潜在的な予測モデルがさまざまな時間およびさまざまな店舗でレモネードの販売プロファイルを取得できる、コンテキストが豊富なデータセットを作成しました。これにより、モデルは最近の販売履歴を確認し、他の場所の同様の店舗を左右に観察することで、ベルリンの店舗での将来の販売について情報に基づいた決定を下すことができます。

ここから、追加のコンテキストディメンションとして製品タイプをさらに追加できます。したがって、レモネード (予測ターゲット) との類似性に基づいてランク付けされた他の製品のデータを使用して売上マトリックスを充実させます。ここでも、適切な類似性メトリックを見つける必要があります。コーラはオレンジジュースというよりレモネードに似ていますか?どのようなデータに基づいて類似性ランキングを定義できますか?

店舗の場合は、都市の人口という継続的な測定値があります。今私たちは製品カテゴリーを扱っています。私たちが本当に探したいのは、レモネードと同様の販売行動を持つ製品です。レモネードとは対照的に、すべての製品の時間分解販売データの相互相関分析を実行できます。このようにして、各製品のピアソン相関係数を取得し、販売パターンがどの程度類似しているかを示します。コーラなどのソフトドリンクの販売パターンはレモネードと同様で、夏に販売が増加する可能性があります。他の製品はまったく異なる動作をします。たとえば、クリスマスマーケットで提供される温かくて甘いワイン、グーワインは、12 月に販売のピークがあり、その後、その年の残りの期間にはほとんど販売されない可能性があります。

[訳者注] 時間分解: 物理学または統計学の名前。これに関連して他によく使われる言葉としては、時間分解診断、時間分解スペクトルなどがあります。

深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データ

相互相関分析により、グリューヴァインワインのピアソン係数は低く (実際には負)、コーラのピアソン係数は高いことがわかります。

売上マトリックスに 3 番目の次元を追加しますが、2 番目の次元を逆方向に接続することで製品コンテキストを含めることができます。これにより、最も重要な販売データ (ベルリンレモネードの販売) が中心に配置されます。

深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データ

#機能を追加

##非常に有益なデータ構造ですが、これまでのところ特徴は 1 つだけです。それは、特定の時間に特定の店舗で特定の製品が販売された製品の数です。堅牢で正確な予測を行うにはこれで十分かもしれませんが、他のデータソースから有用な情報を追加することもできます。

たとえば、飲料の購入行動は天候に左右される可能性があります。たとえば、非常に暑い夏には、レモネードの需要が増加する可能性があります。マトリックスの 2 番目の層として気象データ (気温など) を提供できます。気象データは、販売データと同じコンテキスト (店舗の場所と製品) で注文されます。異なる製品についても、同じ気温データを取得します。ただし、時間や店舗の場所が異なると、違いがあることがわかり、データに有用な情報が得られる可能性があります。

深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データ

このようにして、売上と温度データをさらに含む 3 次元マトリックスが得られます。温度データを含めることによって追加のコンテキストディメンションを追加したわけではないことに注意してください。前に指摘したように、データを特定の方法で分類すると、コンテキストが明らかになります。確立したデータコンテキストについては、時間、製品の類似性、店舗の類似性に基づいてデータを並べ替えました。ただし、特徴の順序 (この場合、行列の 3 次元に沿った順序) は無関係です。実際、私たちのデータ構造は RGB カラー画像と同等です。 RGB 画像には、2 つのコンテキスト次元 (空間次元 x および y) と 3 つのカラーレイヤー (赤、緑、青) があります。画像を正しく解釈するために、カラーチャネルの順序は任意です。一度定義したら、それを順番に保つ必要があります。しかし、特定のコンテキストで編成されたデータの場合、距離メトリックはありません。

つまり、入力データの構造を事前に決定することはできません。したがって、私たちは創造性と直感を最大限に発揮して、新しい実現可能性の指標を発見する時期に来ています。

概要

時間分解販売データに 2 つの追加のコンテキストと追加の特徴レイヤーを追加することにより、2 つの「チャネル」(売上と温度) を含む 2 次元の「チャネル」を取得します。写真"。このデータ構造は、特定の店舗での最近のレモネードの売上と、同様の店舗や類似の製品の売上と気象情報を包括的に表示します。これまでに作成したデータ構造は、たとえば複数の畳み込み層や LSTM ユニットを含むディープニューラルネットワークによる解釈に非常に適しています。ただし、スペースの制限があるため、これに基づいて適切なニューラルネットワークの設計を開始する方法については説明しません。これは私のフォローアップ記事の主題になるかもしれません。

私はあなたに独自のアイデアを持ってもらいたいと考えています。入力データの構造はあらかじめ決まっていないかもしれませんが、創造性と直感をすべて使ってそれを拡張することができます (そうすべきです)。

一般的に言えば、コンテキストリッチなデータ構造は自由には利用できません。会社の全店舗にわたるさまざまな製品を予測するには、数千の状況に応じた豊富な販売プロファイル情報 (店舗の製品構成ごとに 1 つのマトリックス) を生成する必要があります。データを必要な形式に変換し、後続のニューラルネットワークの高速トレーニングと予測サイクルに提供するために、効果的な処理とバッファリングの手段を設計するには、多くの追加作業を行う必要があります。もちろん、これを行うことで、正確な予測を行うことができ、ノイズの多いデータであっても非常に堅牢である望ましい深層学習モデルが得られます。これは、「ルールを破って」非常に賢明な決定を行うことができるように見えるためです。

翻訳者紹介

Zhu Xianzhong 氏、51CTO コミュニティ編集者、51CTO エキスパートブロガー、講師、濰坊市の大学のコンピューター教師、フリーランスプログラミング業界のベテラン。

元のタイトル: Context-Enriched Data: The Secret Superpower for Your Deep Learning Model 、著者:クリストフ・モール

以上が深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7814

Java チュートリアル

1646

CakePHP チュートリアル

1402

Laravel チュートリアル

1300

PHP チュートリアル

1237

Related knowledge

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

ORB-SLAM3を超えて！ SL-SLAM: 低照度、重度のジッター、弱いテクスチャのシーンはすべて処理されます。 May 30, 2024 am 09:35 AM

以前に書きましたが、今日は、深層学習テクノロジーが複雑な環境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度条件、動的照明、テクスチャの弱い領域、激しいセックスなどの困難なシナリオでの適応を改善するように設計された多用途のハイブリッドビジュアル SLAM システムを紹介します。当社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構成を含む複数のモードをサポートしています。さらに、他の研究にインスピレーションを与えるために、ビジュアル SLAM と深層学習手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範な実験を通じて、測位精度と追跡堅牢性の点で SL-SLAM の優位性を実証しました。

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマートポインター、最新のスレッドライブラリ、SIMD 命令、サードパーティライブラリの使用、コーディングスタイルガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

Alibaba 7B マルチモーダル文書理解の大規模モデルが新しい SOTA を獲得 Apr 02, 2024 am 11:31 AM

マルチモーダル文書理解機能のための新しい SOTA!アリババの mPLUG チームは、最新のオープンソース作品 mPLUG-DocOwl1.5 をリリースしました。これは、高解像度の画像テキスト認識、一般的な文書構造の理解、指示の遵守、外部知識の導入という 4 つの主要な課題に対処するための一連のソリューションを提案しています。さっそく、その効果を見てみましょう。複雑な構造のグラフをワンクリックで認識しMarkdown形式に変換：さまざまなスタイルのグラフが利用可能：より詳細な文字認識や位置決めも簡単に対応：文書理解の詳しい説明も可能：ご存知「文書理解」「」は現在、大規模な言語モデルの実装にとって重要なシナリオです。市場には文書の読み取りを支援する多くの製品が存在します。その中には、主にテキスト認識に OCR システムを使用し、テキスト処理に LLM と連携する製品もあります。

See all articles

深層学習モデルの予測品質を向上させる秘密兵器 - コンテキスト認識データ

コンテキストとは何ですか?

コンテキストリッチなデータの設計

#機能を追加

概要

翻訳者紹介

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック