この記事は、InfoWorld 2021 が公開した「Best Open Source Software List」の翻訳です。 InfoWorld は、1978 年に設立された情報テクノロジー メディア企業で、現在は IDG の一部です。 InfoWorld は毎年、オープンソース コミュニティへのソフトウェアの貢献と業界への影響力に基づいて、その年の「ベスト オープン ソース ソフトウェア」(BOSSIE) を選出しており、この賞の選考は 10 年以上続いています。この賞を受賞した 29 のオープンソース プロジェクトには、次のものが含まれます。 ソフトウェア開発、開発、クラウド ネイティブ コンピューティング、機械学習、他のタイプ 、 おなじみの顔があるかどうかを確認するために以下を見てみましょう! ##1、Svelte と SvelteKit
# 多くのイノベーションの中でオープンソースのフロントエンド JavaScript フレームワークである Svelte とそのフルスタック版である SvelteKit は、最も野心的で先見的なものかもしれません。 Svelte は、最初からコンパイル時戦略を採用することで現状を打破し、優れたパフォーマンス、継続的な開発、優れた開発者エクスペリエンスを実現して前進しました。現在パブリックベータ版の SvelteKit は、最新のツールを採用し、サーバーレス環境への展開を組み込み機能にすることで飛躍するという Svelte の伝統を継承しています。 # アドレス: https://github.com/sveltejs/svelte
2、Minikube
#Minikube は、Kubernetes をローカルで実行する簡単なツールであり、仮想マシン内に Kubernetes のスタンドアロン バージョンを簡単に作成できます。ラップトップクラスター。 Kubernetes を試したり、日常の開発に Kubernetes を使用したりするのは簡単です。
#アドレス: https://github.com/kubernetes/minikube
3、Pixie
Pixie は、Kubernetes アプリケーション用の可観測性ツールであり、サービス マップ、クラスター リソース、アプリケーション トラフィックなど、クラスターの高レベルのステータスを表示できます。 ; ポッドのステータス、フレーム グラフ、個々のフルボディ アプリケーション リクエストなど、より詳細なビューにドリルダウンすることもできます。 Pixie は、eBPF を使用してテレメトリ データを自動的に収集します。eBPF は、クラスタの CPU の 5% 未満を使用して、すべてのテレメトリ データをクラスタ上でローカルに収集、保存、クエリします。 Pixie のユースケースには、クラスター内ネットワークの監視、インフラストラクチャの健全性、サービスのパフォーマンス、データベース クエリのプロファイリングが含まれます。 アドレス: https://github.com/pixie-io/pixie
4. FastAPI
##FastAPI は、API を構築するための高性能 Web フレームワークです。主な機能:
高速: NodeJS や Go に匹敵する非常に高いパフォーマンス
高速コーディング: 機能開発速度が約 200% ~ 300% 向上します。
- #エラーの削減: 人的エラーが約 40% 削減されます
- 直感的: 強力なエディターのサポート、あらゆる場所でのオートコンプリート、デバッグ時間の短縮
- 簡単: 使いやすいように設計されています学習して、ドキュメントを読む時間を削減します。
- 簡単に言うと、コードの重複を減らします。
- 堅牢: 自動インタラクティブドキュメントを備えた本番環境に対応したコードを取得します
#標準ベース: API のオープン標準 OpenAPI および JSON スキーマに基づいており、完全な互換性があります
アドレス: https://github.com/tiangolo/fastapi
5、クリスタル
Crystal は、C の速度と Ruby の表現力を備えたプログラミング言語を提供するプロジェクトとして数年間開発が続けられてきました。今年初めに Crystal 1.0 がリリースされたことで、この言語は一般的なワークロードに使用できるほど安定しました。 Crystal は静的型付けと LLVM コンパイラを使用して高速性を実現し、実行時の null 参照などの一般的な問題を回避します。 Crystal は、既存の C コードと連携して速度と利便性をさらに向上させることができ、コンパイル時マクロを使用して基本言語の構文を拡張することもできます。 アドレス: https://github.com/crystal-lang/crystal
6. Windows ターミナル
##Windows ターミナルは、新しく人気のある強力なコマンド ライン ターミナル ツールです。 。これには、マルチタブのサポート、リッチ テキスト、多言語のサポート、構成可能、テーマとスタイル、絵文字と GPU ベースのテキスト レンダリングのサポートなど、コミュニティからの要望が多かった多くの機能が含まれています。同時に、端末は高速性と効率性を維持し、大量のメモリと電力を消費しないという目標と要件を満たしています。
Linux 中国語コミュニティをフォローしてくださいアドレス: https://github.com/Microsoft/ターミナル ###
7. OBS Studio
##OBS Studio は、ライブ ストリーミングおよび画面録画用のソフトウェアです。ビデオ コンテンツの効率的なキャプチャ、合成、エンコード、記録、ストリーミングをサポートし、すべてのストリーミング プラットフォームをサポートします。
- #高性能のリアルタイムビデオ/オーディオキャプチャとミキシング。ウィンドウ キャプチャ、画像、テキスト、ブラウザ ウィンドウ、Web カメラ、キャプチャ カードなどを含む複数のソースで構成されるシーンを作成します。
- # ユーザーがカスタム トランジションを使用してシームレスに切り替えることができるシーンを無制限にセットアップします。
- ノイズゲート、ノイズ抑制、ゲインなど、ソースごとにフィルターを備えた直感的なオーディオミキサー。 VST プラグインのサポートを完全に制御します。
- 強力で使いやすい構成オプション。新しいソースを追加したり、既存のソースをコピーしたり、それらのプロパティを簡単に調整したりできます。
- 合理化された設定パネルにより、ユーザーはさまざまな構成オプションにアクセスして、放送や録画のあらゆる側面を調整できます。
- モジュール式の「Dock」UI を使用すると、ユーザーは必要に応じてレイアウトを正確に再配置できます。ユーザーは、個々の Dock を独自のウィンドウにポップすることもできます。
アドレス: https://github.com/obsproject/obs-studio
8. Shotcut
##Shotcut は、クロスプラットフォームのビデオ編集ツールです。エフェクトやレイヤーを適用しながら、オーディオおよびビデオ トラックにすべての標準的な修正を加えます。 Shotcut には非常に活発なコミュニティがあり、初心者から上級ビデオグラファーまで同様に役立つハウツー ビデオやチュートリアルが大量に提供されています。 Mac、Linux、BSD、Windows 上で動作し、クロスプラットフォームであるにもかかわらず、そのインターフェースはきびきびしていて、同様のツールと比べて比較的簡単に使用できます。 アドレス: https://github.com/mltframework/shotcut
#9、Weave GitOps コア
##Weave GitOps サポートの効果Kubernetes クラスターへのアプリケーションの継続的配信のための GitOps ワークフロー 。これは、主要な GitOps エンジン CNCF Flux に基づいています。 アドレス: https://github.com/weaveworks/weave-gitops
10. Apache Solr
##Apache Solr は全文に基づいていますLucene Search サーバーは、最も人気のあるエンタープライズ検索エンジンでもあります。 Apache Lucene は、Elasticsearch などの他の検索エンジンを含む、使用するほとんどのソフトウェアの検索機能の背後にある基盤となる検索テクノロジです。 Elasticsearch とは異なり、Solr はオープンソース ライセンスを放棄しましたが、無料のままです。 Solr はクラスタ化可能でクラウド展開可能であり、クラウドスケールの検索サービスを構築するのに十分な強力性を備えています。結果を自動的に調整して重み付けするのに役立つ LTR アルゴリズムも含まれています。 アドレス: https://github.com/apache/solr
11、MLflow
MLflow は Databricks によって作成され、Linux を搭載しています。 Foundation ホスティングは、人々がさまざまな機械学習モデル、実験、およびその展開を追跡、管理、維持できるようにする MLOps プラットフォームです。実験 (コード、データ、構成、結果) を記録およびクエリし、データ サイエンス コードをプロジェクトにパッケージ化し、これらのプロジェクトをワークフローにリンクするツールを提供します。 アドレス: https://github.com/mlflow/mlflow
12. Orange
##Orange は、データ マイニングを「生産的で効率的なものにする」ことを目指しています。楽しい"。 Orange を使用すると、ユーザーはさまざまな機械学習や分析機能、視覚化を実行するデータ分析ワークフローを作成できます。 R Studio や Jupyter などのプログラムまたはテキスト ツールと比較して、Orange は非常に直感的です。ウィジェットをキャンバスにドラッグしてファイルをロードし、モデルを使用してデータを分析し、結果を視覚化できます。 アドレス: https://github.com/biolab/orange3
13. Flutter
Flutter は、Google のエンジニアリング チームによって構築されています。高性能のクロスプラットフォームのモバイル アプリケーションを作成します。 Flutter は、Android と iOS の低遅延入力と高フレーム レートに重点を置き、現在および将来のモバイル デバイス向けに最適化されています。 開発者には、クロスプラットフォームの高性能モバイル アプリケーションを構築および展開するためのシンプルかつ効率的な方法が提供され、 は美しく、高速で、ジッターのないアプリ エクスペリエンスをユーザーに提供します。 アドレス: https://github.com/flutter
14. Apache スーパーセット
##Apache スーパーセットは Airbnb (まあ、オープン ソースのデータ探索および視覚化プラットフォーム (以前は Panoramix、Caravel として知られていました) のこのツールは、視覚化、使いやすさ、対話性の点で非常に特徴的であり、ユーザーはデータの視覚的な分析を簡単に実行できます。 Apache Superset は、エンタープライズ グレードのビジネス インテリジェンス Web アプリケーションでもあります。 アドレス: https://github.com/apache/superset
15. Presto
Presto は、オープンソースの分散 SQL エンジンです。は、オンライン分析処理の場合、クラスター内で実行されます。 Presto は、ファイルからデータベースまで、さまざまなデータ ソースにクエリを実行し、結果を多くのビジネス インテリジェンスおよび分析環境に返すことができます。さらに、Presto を使用すると、Hive、Cassandra、リレーショナル データベース、独自のデータ ストアなど、データが存在する場所に関係なくデータをクエリできます。 Presto クエリでは、複数のソースからのデータを組み合わせることができます。 Facebook は Presto を使用して、300PB データ ウェアハウス を含むいくつかの内部データ ストアに対して対話型クエリを実行します。 アドレス: https://github.com/prestodb/presto
16. Apache Arrow
##Apache Arrow は平面であり、階層データは、最新の CPU および GPU での効率的な分析操作のために編成された、言語に依存しない列形式のメモリ形式を定義します。 Arrow メモリ形式は、シリアル化オーバーヘッドなしで超高速データ アクセスを実現するゼロコピー読み取りもサポートしています。 Arrow ライブラリは、C、C++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby、および Rust で使用できます。
アドレス: https://github.com/apache/arrow
17. InterpretML
InterpretML は、いくつかの機能を含むオープンソースの Explainable AI (XAI) パッケージです。最先端の機械学習解釈可能技術。 InterpretML を使用すると、解釈可能な glassbox モデルをトレーニングし、ブラック ボックス システムを解釈できます。 InterpretML は、モデルの全体的な動作を理解したり、個々の予測の背後にある理由を理解したりするのに役立ちます。 InterpretML には、その多くの機能の 1 つとして、Explainable Boosting Machine と呼ばれる Microsoft Research の「ガラス ボックス」モデルがあり、ブラック ボックス モデルの近似によるポストホック解釈のための Lime をサポートしています。 アドレス: https://github.com/interpretml/interpret
18、ライム
ライム(ローカルで解釈可能なモデルに依存しない説明) (の略) は、入力の特徴を摂動させ、予測を調べることによって機械学習分類器の予測を解釈するポストホック手法です。 Lime は、2 つ以上のクラスを持つブラック ボックス分類子を解釈できます。 これは、テキスト ドメインと画像ドメインの両方に適しています。 Lime は InterpretML にも含まれています。 アドレス: https://github.com/marcotcr/lime
19. Dask
##Dask は、Python パッケージのスケールを使用できる並列コンピューティング用のオープンソース ライブラリです。複数のマシンに。 Dask は、同じシステム内またはマルチノード クラスター内の複数の GPU にデータと計算を分散できます。 Dask は、GPU アクセラレーションによるデータ分析と機械学習のために、Rapids cuDF、XGBoost、および Rapids cuML と統合します。また、NumPy、Pandas、Scikit-learn と統合してワークフローを並列化します。
アドレス: https://github.com/dask/dask
20. BlazingSQL
##BlazingSQL は RAPIDS エコシステム GPU に基づいて構築されています高速化された SQL エンジン。 RAPIDS は Apache Arrow 列指向メモリ形式に基づいており、cuDF はデータのロード、結合、集約、フィルタリング、操作のための GPU データフレーム ライブラリです。 ## は、大規模なデータ サイエンス ワークフローとエンタープライズ データセットをサポートするさまざまな機能を備えた cuDF への SQL インターフェイスです。 アドレス: https://github.com/BlazingDB/blazingsql
21. Rapids
Nvidia の Rapids オープンソース ソフトウェア ライブラリと APIこのスイートにより、エンドツーエンドのデータ サイエンスと分析パイプラインを完全に GPU 上で実行できるようになります。 Rapids は、低レベルのコンピューティング最適化に Nvidia CUDA プリミティブを使用し、ユーザー フレンドリーな Python インターフェイスを通じて GPU の並列処理と高帯域幅メモリ速度を公開します。 Rapids は、Pandas のような DataFrame ライブラリである cuDF を含む Apache Arrow 列指向メモリ形式に依存しています。 # 、Scikit-learn のほとんどのアルゴリズムの GPU バージョンを提供する機械学習ライブラリのコレクション、および cuGraph、NetworkX のような高速グラフ分析ライブラリ
#アドレス: https://github.com/rapidsai/cudf22. PostHog
PostHog は開発者向けに構築されたオープンソース製品です分析プラットフォーム。データを第三者に送信せずに、Web サイトまたはアプリ上のすべてのイベントを自動的に収集します。ユーザーレベルでイベントベースの分析を提供し、製品の使用状況データをキャプチャして、どのユーザーがアプリケーションでどのアクションを実行したかを確認します。イベントを手動でプッシュすることなく、クリックとページビューを自動的にキャプチャしてユーザーの行動を分析します。 アドレス: https://github.com/PostHog/posthog
23. LakeFS
LakeFS は、「管理」を管理する方法を提供します。コードとしてのデータ レイク」アプローチでは、Git のようなバージョン管理のレイヤーがオブジェクト ストレージに追加されます。この Git セマンティクスのアプリケーションにより、ユーザーは、共有オブジェクトを破損するリスクを負うことなく、作業、実験、モデル分析を行うための独自の分離されたゼロコピーのデータ ブランチを作成できます。 LakeFS は、コミットされていないブランチが誤って運用環境にマージされる前に、データの整合性と品質を維持するための検証フックに加えて、便利なコミット ノート、メタデータ フィールド、ロールバック オプションをデータに提供し、フォーマットとスキーマのチェックを実行します。 LakeFS を使用すると、コード ベースを管理および保護するための使い慣れた手法を、Amazon S3 や Azure Blob Storage などの最新のデータベースに拡張できます。 アドレス: https://github.com/treeverse/lakeFS
24、Meltano
Meltano は今年 GitLab から分離されました。従来の ELT (抽出、読み込み、変換) に代わる、無料のオープンソース DataOps ツール チェーン。 Meltano のデータ ウェアハウジング フレームワークを使用すると、プロジェクトのデータのモデル化、抽出、変換が簡単になり、レポート作成を簡素化する組み込みの分析ツールとダッシュボードで統合と変換のパイプラインを補完します。 Meltano は、信頼性の高いエクストラクターとローダー ライブラリを提供するだけでなく、Singer の標準データ抽出タップとデータ ロード ターゲットのサポートも提供しており、すでにデータ オーケストレーションの有力企業となっています。 25、Trino
Trino (旧名 PrestoSQL) は、次のことができる分散 SQL 分析エンジンです。大規模な分散データ ソースに対して非常に高速なクエリを実行します。 Trino を使用すると、処理のためにデータをコピーまたは移動することなく、データ レイク、リレーショナル ストア、または複数の異種ソースに対してクエリを同時に実行できます。また、Trino は、インタラクティブかアドホックかを問わず、データ サイエンティストが使用するあらゆるビジネス インテリジェンスおよび分析ツールとうまく連携し、学習曲線を最小限に抑えます。データ エンジニアは、増加するデータ ソースにわたる複雑な分析をサポートしようと努めていますが、Trino はクエリの実行を最適化し、異種ソースからの結果を高速化する方法を提供します。 # アドレス: https://github.com/trinodb/trino
26、StreamNative
#StreamNative は、リアルタイム レポートおよび分析ツールや企業へのデータ フローを大幅に簡素化する、拡張性の高いメッセージングおよびイベント ストリーミング プラットフォームです。用途 パイプ敷設。 StreamNative は、Apache Pulsar の強力な分散ストリーム処理アーキテクチャと、Kubernetes やハイブリッド クラウド サポートなどのエンタープライズ エクストラ機能、データ コネクタの大規模なライブラリ、簡単な認証と認可、健全性とパフォーマンスの監視に特化したツールを組み合わせて、Pulsar ベースの実際のシステムの開発を簡素化します。 -time アプリケーションを構築し、大規模なメッセージング バックプレーンの導入と管理を簡素化します。
アドレス: https://github.com/streamnative
27. 顔をハグする
顔をハグすると、最も重要な効果が得られます。オープンソースの深層学習リソース ライブラリは、それ自体が深層学習フレームワークではありません。 Hugging Face の目標は、テキストを超えて画像、音声、ビデオ、オブジェクト検出などをサポートすることです。 Infoworld は、深層学習の実践者は今後数年間このリポジトリに細心の注意を払う必要があると指摘しています。 アドレス: https://github.com/huggingface/transformers
28、EleutherAI
##EleutherAI は機械学習の研究者である分散型グループですGPT-3 をすべての人に提供するために結成されました。 2021 年の初めに、EleutherAI は、トレーニング用の 825 GB の多様なテキスト データ セットである The Pile をリリースし、6 月には、OpenAI の GPT-3 Curie バリアントとほぼ同等の 60 億パラメータ モデルである GPT-J を発表しました。 GPT-NeoX の登場により、EleutherAI は現在最も普及している GPT-3 モデルと競合するためにパラメータを 1,750 億まで増やすことを計画しています。 #アドレス: https://github.com/EleutherAI/gpt-neo
#29、生成用の Colab ノートブック美術##################
最初は、OpenAI の CLIP (Contrastive Language-Image Pre-trained) モデルです。これは、テキストと画像ベクトルの埋め込みを生成するためのマルチモーダル モデルです。 CLIP は完全にオープンソースですが、OpenAI の生成ニューラル ネットワーク DALL-E はそうではありません。このギャップを埋めるために、Ryan Murdoch と Katherine Crowson は、CLIP と BigGAN や VQGAN などの他のオープンソース モデルを組み合わせてプロンプトベースのジェネレーティブ アートを生成する Colab ノートブックを開発しました。 MIT ライセンスに基づいてライセンスされたこれらのノートブックは、過去数十年にわたってインターネット上で広く配布され、リミックス、変更、翻訳され、素晴らしい芸術作品を生み出すために使用されてきました。