2017 年、Google チームは論文「Attending Is All You Need」で画期的な NLP アーキテクチャ Transformer を提案し、それ以来不正行為を続けています。
このアーキテクチャは、長年にわたり、Microsoft、Google、Meta などの大手テクノロジー企業で人気がありました。一世を風靡したChatGPTもTransformerをベースに開発されました。
そして本日、GitHub での Transformer のスター評価が 100,000 を超えました。
チャットボット プログラムとして始まった Hugging Face は、Transformer モデルの中心的存在として名声を高め、世界的に有名なオープンソース コミュニティ。
このマイルストーンを記念して、Hugging Face は Transformer アーキテクチャに基づいた 100 のプロジェクトもまとめました。
2017 年 6 月に Google が「必要なのは注意だけです」という論文を発表したとき、おそらく誰もこのディープ ラーニング アーキテクチャについて思いつきませんでした。トランスフォーマー それはどれほど多くの驚きをもたらすことができますか。
Transformer は、その誕生以来、AI 分野の礎の王となりました。 2019年、Googleもこれに特化した特許を申請した。
Transformer が NLP 分野で主流の地位を占めるにつれて、国境を越えて他の分野にも進出し始めており、ますます多くの仕事が行われています。それを CV 領域に誘導してみてください。
多くのネチズンは、トランスフォーマーがこのマイルストーンを突破するのを見て非常に興奮しました。
「私は多くの人気のあるオープンソース プロジェクトに貢献してきましたが、Transformer が GitHub で 10,000 スターに達したのを見て、
#少し前に、Auto-GPT の GitHub スターの数が、 pytorch. は大きな波紋を引き起こしました。
ネチズンは、Auto-GPT が Transformer とどう違うのか疑問に思わずにはいられませんか?
実際、Auto-GPT は Transformer をはるかに上回り、すでに 130,000 個のスターを持っています。
現在、Tensorflow には 170,000 個を超えるスターがあります。 Transformer は、これら 2 つのプロジェクトに次いで 100,000 を超える星評価を持つ 3 番目の機械学習ライブラリであることがわかります。
一部のネチズンは、Transformers ライブラリを初めて使用したとき、それが「pytorch-pretrained-BERT」と呼ばれていたことを思い出しました。
トランスフォーマーは、事前トレーニングされたモデルを使用するツールキットであるだけでなく、トランスフォーマーとハギング フェイス ハブ コミュニティを中心に構築されたプロジェクトでもあります。
次のリストでは、Hugging Face がトランスフォーマーに基づいた 100 の驚くべき斬新なプロジェクトをまとめています。
以下に、紹介する最初の 50 プロジェクトを選択しました:
gpt4all は、オープンソースのチャットボット エコシステムです。コード、ストーリー、会話などのクリーンなアシスタント データの大規模なコレクションに基づいてトレーニングされます。 LLaMA や GPT-J などのオープンソースの大規模言語モデルを、アシスタント形式でトレーニングするために提供します。
#キーワード: オープンソース、LLaMa、GPT-J、手順、アシスタント
# レコメンダーこのリポジトリには、Jupiter ノートブックの形式で提供される、レコメンダー システムを構築するための例とベスト プラクティスが含まれています。データの準備、モデリング、評価、モデルの選択と最適化、運用化など、効果的なレコメンデーション システムを構築するために必要ないくつかの側面をカバーしています。
キーワード: レコメンデーション システム、AzureML
lama-cleaner安定拡散技術に基づく画像修復ツール。画像から不要な物体、欠陥、さらには人物を消去し、画像上のあらゆるものを置き換えることができます。
#キーワード: パッチ、SD、安定拡散
##フレア
#FLAIR は、NER、感情分析、品詞のタグ付け、テキストと二重埋め込みなど、いくつかの重要なタスクを変換できる強力な PyTorch 自然言語処理フレームワークです。キーワード: NLP、テキスト埋め込み、ドキュメント埋め込み、生物医学、NER、PoS、感情分析
#mindsdb
MindsDB は、ローコードの機械学習プラットフォームです。複数の ML フレームワークを「AI テーブル」としてデータ スタックに自動的に統合することで、アプリケーションへの AI の統合が簡素化され、あらゆるスキル レベルの開発者がアクセスできるようになります。キーワード: データベース、ローコード、AI テーブル
langchain
Langchain は、互換性のあるコードの開発を支援するように設計されています。 LLM およびその他のナレッジ ソース アプリケーション。このライブラリを使用すると、アプリケーションへの呼び出しを連鎖させて、多くのツールでシーケンスを作成できます。キーワード: LLM、大規模言語モデル、エージェント、チェーン
ParlAI
ParlAI は、オープンドメインのチャットからタスク指向の対話、視覚的な質問応答まで、対話モデルのトレーニングとテストのための Python フレームワーク。 100 を超えるデータセット、多くの事前トレーニング済みモデル、一連のエージェント、および同じ API の下でのいくつかの統合が提供されます。キーワード: ダイアログ、チャットボット、VQA、データセット、エージェント
文変換
このフレームワークは、シンプルな文、段落、画像の密なベクトル表現を計算する方法。これらのモデルは、BERT/RoBERTa/XLM-RoBERTa などの Transformer ベースのネットワークに基づいており、さまざまなタスクで SOTA を実現しています。テキストはベクトル空間に埋め込まれているため、類似したテキストが近くにあり、コサイン類似度によって効率的に見つけることができます。キーワード: 密ベクトル表現、テキスト埋め込み、文埋め込み
ludwig
Ludwig は宣言型機械学習フレームワークです。これにより、シンプルで柔軟なデータ駆動型構成システムを使用して、機械学習パイプラインを簡単に定義できます。 Ludwig はさまざまな AI タスクを対象とし、データ駆動型の構成システム、トレーニング、予測および評価スクリプト、プログラミング API を提供します。キーワード: 宣言型、データ駆動型、ML フレームワーク
InvokeAI は、専門家、アーティスト、愛好家を対象とした安定拡散モデルのエンジンです。 CLI および WebUI を通じて最新の AI 駆動テクノロジーを活用します。
#キーワード: 安定拡散、WebUI、CLI
PaddleNLPPaddleNLP は、特に中国語向けの使いやすく強力な NLP ライブラリです。複数の事前トレーニング済みモデル動物園をサポートし、研究から産業アプリケーションまで幅広い NLP タスクをサポートします。
キーワード: 自然言語処理、中国語、研究、産業
stanzaスタンフォード大学 NLP グループの公式 Python NLPライブラリ。 60 を超える言語での幅広い正確な自然言語処理ツールの実行をサポートし、Python から Java Stanford CoreNLP ソフトウェアへのアクセスをサポートします。
キーワード: NLP、多言語、CoreNLP
DeepPavlovDeepPavlov は、オープンソースの会話型人工知能ライブラリです。これは、本番環境に対応したチャットボットや複雑な対話システムの開発だけでなく、NLP 分野、特に対話システムの研究のために設計されています。
キーワード: ダイアログ、チャットボット
alpaca-loraAlpaca-lora には低ランク適応 ( LoRA) スタンフォード Alpaca の結果を再現するコード。このリポジトリは、トレーニング (微調整) および生成スクリプトを提供します。
キーワード: LoRA、パラメータの効率的な微調整
imagen-pytorchImagen のオープンソース実装。 Google のクローズド Source text-to-image ニューラル ネットワークは DALL-E2 を上回ります。 imagen-pytorch は、テキストから画像への合成のための新しい SOTA です。
#キーワード: Imagen、Wenshengtu
##アダプター変圧器
キーワード: アダプター、LoRA、パラメーターの効率的な微調整、ハブ
NeMo
キーワード: ダイアログ、ASR、TTS、LLM、NLP
Runhouse
#これは、リモート マシンをバイパスしたり、リモート データを操作したりできる Python インタープリターの拡張パッケージと考えることができます。
キーワード: MLOps、インフラストラクチャ、データ ストレージ、モデリング
MONAI は PyTorch エコシステムの一部であり、医療画像分野における深層学習のための PyTorch に基づくオープンソース フレームワークです。その目的は次のとおりです:
- 学術、産業、臨床研究者の協力的なコミュニティを共通の基盤で発展させること;
- に貢献すること医用画像処理は、SOTA、エンドツーエンドのトレーニング ワークフローを作成します。
- 深層学習モデルの確立と評価のための最適化および標準化された方法を提供します。
キーワード: 医療画像、トレーニング、評価
Simple Transformers を使用すると、Transformer モデルを迅速にトレーニングして評価できます。 。モデルの初期化、トレーニング、評価に必要なコードは 3 行だけです。さまざまな NLP タスクをサポートします。
キーワード: フレームワーク、シンプルさ、NLP
JARVIS は GPT-4 などです。LLM システムオープンソース機械学習コミュニティの他のモデルとマージし、最大 60 の下流モデルを活用して LLM によって特定されたタスクを実行します。
キーワード: LLM、エージェント、HF ハブ
transformers.js は、トランスフォーマーからのモデルをブラウザーで直接実行することを目的とした JavaScript ライブラリです。
キーワード: トランスフォーマー、JavaScript、ブラウザ
Bumblebee は、Axon ニューラル ネットワーク モデルに基づいて事前トレーニングされた機能を提供します, Axon は Elixir 言語のニューラル ネットワーク ライブラリです。これにはモデルとの統合が含まれており、誰でもわずか数行のコードで機械学習タスクをダウンロードして実行できます。
キーワード: Elixir、Axon
Argilla は、高度な NLP ラベル付け、モニタリング、ワークスペースを提供するツールです。ソースプラットフォーム。 Hugging Face、Stanza、FLAIR などの多くのオープンソース エコシステムと互換性があります。
キーワード: NLP、ラベリング、モニタリング、ワークスペース
Haystack は、Transformer モデルと LLM を使用してデータを操作できるオープンソースの NLP フレームワークです。複雑な意思決定、質問応答、セマンティック検索、テキスト生成アプリケーションなどを迅速に構築するための、本番環境に対応したツールを提供します。
#キーワード: NLP、フレームワーク、LLM
##spaCyキーワード: NLP、アーキテクチャ
SpeechBrain は、PyTorch に基づくオープンソースの統合会話型 AI ツールキットです。私たちの目標は、音声認識、話者識別、音声強調、音声分離、音声認識、マルチマイクなどの最先端の音声テクノロジーを簡単に開発するために使用できる、柔軟でユーザーフレンドリーな単一のツールキットを作成することです。信号処理およびその他のシステム。
キーワード: ダイアログ、スピーチ
Skorch は、scikit-learn と互換性のある PyTorch のラッパーです。ニューラル ネットワーク ライブラリです。 。 Transformers のモデルとトークナイザーのトークナイザーをサポートします。
キーワード: Scikit-Learning、PyTorch
BertViz は、「注意を視覚化」などのアプリケーションで使用される対話型ツールです。 BERT、GPT2、T5 などの Transformer 言語モデルで。ほとんどの Huggingface モデルをサポートするシンプルな Python API を介して、Jupiter または Colab ノートブックで実行できます。
#キーワード: ビジュアライゼーション、トランスフォーマー
##mesh-transformer-jax mesh-transformer-jax は、JAX の xmap/pjit 演算子を使用して Transformers モデルの並列処理を実装する Haiku ライブラリです。このライブラリは、TPUv3 で約 40B のパラメータに拡張するように設計されています。 GPT-J モデルをトレーニングするために使用されるライブラリです。
キーワード: Haiku、モデル並列処理、LLM、TPUdeepchem
OpenNRE
ニューラル関係抽出の手法 オープンソース パッケージ(NRE)。初心者から開発者、研究者、学生まで幅広いユーザーを対象としています。#キーワード: 神経関係抽出、フレームワーク
pycorrector
#キーワード: 中国語、エラー修正ツール、言語モデル、ピンイン
##nlpaug
この Python ライブラリは、機械学習プロジェクトの NLP を強化するのに役立ちます。これは、モデルのパフォーマンスを向上させる合成データを生成する機能を備えた軽量ライブラリであり、オーディオとテキストをサポートし、いくつかのエコシステム (scikit-learn、pytorch、tensorflow) と互換性があります。キーワード: データ拡張、合成データ生成、オーディオ、自然言語処理
dream-texturesdream-texturesは、Blender に安定した拡散サポートを提供するために設計されたライブラリです。画像生成、テクスチャ投影、イン/アウト ペイント、ControlNet、アップグレードなどの複数のユースケースをサポートします。
#キーワード: 安定拡散、ブレンダー
#セルドンコア
Seldon コアは、ML モデル (Tensorflow、Pytorch、H2o など) または言語ラッパー (Python、Java など) を本番環境の REST/GRPC マイクロサービスに変換します。 Seldon は、数千の実稼働機械学習モデルへのスケーリングを処理でき、高度なメトリクス、リクエスト ログ、インタープリター、外れ値検出器、A/B テスト、カナリアなどを含む高度な機械学習機能を提供します。
キーワード: マイクロサービス、モデリング、言語パッケージングこのライブラリには、高性能の深層学習推論アプリケーションの開発を加速する、最適化された深層学習モデルと一連のデモが含まれています。独自のトレーニングを行う代わりに、これらの無料の事前トレーニング済みモデルを使用して、開発および運用展開プロセスをスピードアップします。 キーワード: 最適化モデル、デモンストレーション ML-Stable-Diffusion は Apple の A リポジトリですこれにより、Apple シリコン デバイス上の Core ML に Stable Diffusion サポートがもたらされます。 Hugging Face Hub でホストされる安定した拡散チェックポイントをサポートします。 #キーワード: 安定拡散、Apple チップ、コア MLopen_model_zoo
ml-stable-diffusion
#キーワード: テキストから 3D、安定した拡散
##txtai
#Txtai は、セマンティック検索と言語モデル主導のワークフローをサポートするオープン ソース プラットフォームです。 Txtai は、ベクトル インデックスとリレーショナル データベースを組み合わせた組み込みデータベースを構築し、SQL 最近傍検索をサポートします。セマンティック ワークフローは、言語モデルを統合アプリケーションに接続します。 #キーワード: セマンティック検索、LLM
##djl
Deep Java Library (DJL) は、開発者にとって使いやすい、オープンソースの高レベルでエンジンに依存しないディープ ラーニング用の Java フレームワークです。 DJL は、ネイティブ Java 開発エクスペリエンスと、他の通常の Java ライブラリと同様の機能を提供します。 DJL は、HuggingFace Tokenizer 用の Java バインディングと、Java で HuggingFace モデルを展開するための単純な変換ツールキットを提供します。
#キーワード: Java、アーキテクチャ
lm-evaluation-harness
このプロジェクトは、多数の異なる評価タスクで生成言語モデルをテストするための統合フレームワークを提供します。 200 を超えるタスクをサポートし、HF Transformers、GPT-NeoX、DeepSpeed、OpenAI API などのさまざまなエコシステムをサポートします。
キーワード: LLM、評価、いくつかのサンプルgpt-neox
このリソース ライブラリは、EleutherAI A の使用を記録します。 GPU 上で大規模な言語モデルをトレーニングするためのライブラリ。このフレームワークは、NVIDIA の Megatron 言語モデルに基づいており、DeepSpeed のテクノロジといくつかの新しい最適化によって強化されています。その焦点は、数十億のパラメーターを使用してモデルをトレーニングすることです。キーワード: トレーニング、LLM、メガトロン、DeepSpeed
muzic
Muzic は、人工知能に関する研究プロジェクトです。ディープラーニングと人工知能を通じて音楽を理解し、生成することができます。 Muzic は Microsoft Research Asia の研究者によって作成されました。#キーワード: 音楽理解、音楽生成
DALL · E フローは、テキスト プロンプトから高解像度画像を生成するための対話型ワークフローです。 DALL・E-Mega、GLID-3 XL、Stable Diffusion を使用して候補画像を生成し、CLIP-as-service を呼び出して候補画像の並べ替えを促します。好ましい候補は拡散のために GLID-3 XL に供給され、多くの場合、テクスチャや背景が豊かになります。最後に、候補は SwinIR を介して 1024x1024 に拡張されます。
キーワード: 高精細画像生成、安定拡散、DALL-E Mega、GLID-3 XL、CLIP、SwinIR
LightSeq は、シーケンスの処理と生成のために CUDA に実装された高性能のトレーニングおよび推論ライブラリです。 BERT、GPT、Transformer などの最新の NLP および CV モデルを効率的に計算できます。したがって、機械翻訳、テキスト生成、画像分類、その他のシーケンス関連のタスクに役立ちます。
キーワード: トレーニング、推論、シーケンス処理、シーケンス生成
このプロジェクトの目標は、数式の画像を取得し、対応する LaTeX コードを返す学習ベースのシステムを作成することです。
キーワード: OCR、LaTeX、数式
OpenCLIP は、OpenAI の CLIP のオープンソース実装です。
このリポジトリの目標は、対照的な画像とテキストの監視によるモデルのトレーニングを可能にし、分布の変化に対する堅牢性などのモデルの特性を研究することです。プロジェクトの開始点は、同じデータセットでトレーニングされた場合に元の CLIP モデルの精度と一致する CLIP の実装です。
具体的には、OpenAI の 1,500 万画像サブセット YFCC をコードベースとしてトレーニングされた ResNet-50 モデルは、ImageNet 上で 32.7% という最高精度を達成しました。
キーワード: CLIP、オープンソース、比較、画像テキスト
安定拡散と Dall-E mini を使用して、任意のテキスト プロンプトから画像を生成するプレイグラウンド。
#キーワード: WebUI、安定拡散、Dall-E mini
##FedML FedML は、場所や規模を問わず、分散データ上で安全かつ協調的な機械学習を可能にするフェデレーテッド ラーニングおよび分析ライブラリです。キーワード: フェデレーテッド ラーニング、分析、協調機械学習、分散型
以上がスターマークが10万個を突破しました! Auto-GPT の後、Transformer は新たなマイルストーンに到達の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。