大規模なモデルの再現と共同作業の難しさを解決するために、この 95 年代以降の学生チームは国内の AI オープンソースコミュニティを設立しました-AI-php.cn

過去 10 年間で、AI テクノロジーは大きな飛躍を遂げ、自然言語処理、画像認識、またはより革新的な分野において、AI の影響は至る所に広がっています。

研究数の爆発的な増加に伴い、学術界や産業界も「論文の複製」や「学際的連携」の問題など、いくつかの課題に直面しています。特に大規模モデルの時代になり、数百億パラメータのモデル研究に直面すると、オープンソース、再現、連携の重要性はさらに高まりますが、その難易度はさらに高くなります。

紙の再現性は、まず第一に、結果の価値を判断するための重要な参考要素です。一方、急速に発展するAI分野においては、研究の再現性を確保することが知識の蓄積と技術の普及を促進し、学術の健全性を維持し、継続的なイノベーションを促進する鍵となります。これらの問題に直面して、オープンサイエンスと透明性のある研究を提唱することが特に重要です。ソースコード、データ、実験の詳細をオープンにし、複製のニーズに対応する低コストのコンピューティングプラットフォームを提供し、迅速な複製をサポートする対話型プログラムを提供することで、科学研究を推進するためのより堅牢で効率的な方法を構築できる可能性があります。。

「再現の難しさ」という問題で言えば、研究者間の「対話」に高い壁を設けたようなものです。「連携の難しさ」という問題も、学際的な連携に目に見えない障壁を生み出します。

大規模モデルの時代において、コミュニケーションとコラボレーションの敷居を下げることができる便利なプラットフォームをどのように構築するかが大きな課題となっています。 Git ベースのコード管理やバージョン管理など、私たちが慣れ親しんでいる従来のソフトウェア開発コラボレーション手法は、決定論的なプロセスよりも実験に依存する AI 研究開発などのシナリオにはもはや適用できない可能性があります。使用量や展開のしきい値が高いと、さまざまな分野の専門家間のコミュニケーションやコラボレーションが妨げられることがよくあります。現在の AI 分野では、非技術的な背景を持つ専門家がモデルの開発、評価、デモンストレーションのプロセスに簡単に参加できるように、より直観的で使いやすいバージョン管理およびコラボレーションプラットフォームを含む、新しいコラボレーションモデルとツールが必要です。

言い換えれば、科学研究者と実務家の両者は、知識と技術の共有に基づいてより効率的かつ深度のコラボレーションを実現し、AI分野のさらなる発展を促進したいと考えています。

これに関連して、新しい AI オープンソースコミュニティプラットフォーム「SwanHub」 が誕生しました。

解决大模型复现难、协作难，这支95后学生团队打造了一个国产AI开源社区

体験アドレス: https://swanhub.co/

SwanHub には西安の非常に優れたチームがあることは注目に値します。電子科学技術大学、若い大学院生と学部生のチーム。 チームの 4 人のメンバーは全員 1995 年以降生まれです。彼らは AI 研究で豊富な経験を持っているだけでなく、オープンソースに対する情熱も持っています。講師のWu Jiaji教授とTan Mingzhou教授のリーダーシップの下、彼らはAIモデルのワンストップ共同開発、オープンソース共有、ビジュアル表示プラットフォームをゼロから構築し、再現、展開、管理における現在の困難を解決することを目指しました。 AI モデル、難しい核心的な質問。

SwanHub はどのような問題を解決しますか?

SwanHub プラットフォームでは、AI 研究者や実践者は豊富なオープンソースモデルとツールリソースにアクセスできるだけでなく、共同開発の利便性と効率性も享受できます。現在、SwanHub は、AI モデルのホスティング、ビジュアル表示などを含む、いくつかのコア機能を開始しています。

まず、AI 研究者は、Github ホスティングプラットフォームを使用するのと同じように、バージョン管理のためにコードを SwanHub でホストできます。ただし、SwanHub は GitHub と比較して、より大容量の大きなファイルのホスティングをサポートしており、研究者は最大数十 GB のモデル重み付けファイルをホストおよびバージョン管理できます。

解决大模型复现难、协作难，这支95后学生团队打造了一个国产AI开源社区

「ビジュアル表示」もSwanHubの目玉です。 一流のカンファレンスやジャーナルに掲載される多くの研究論文は、美しい効果と革新的なテクノロジーを実証します。しかし実際には、これらの発見を再現しようとするエンジニアや研究者は、しばしば困難に遭遇します。このため、近年の多くの学会では、より十分な研究情報を提供するためにコードだけでなく一定数のデモの提出を著者に求めており、SwanHubはまさにそのような結果を公開し、より多くの科学研究を入手するためのプラットフォームを提供します。渋滞。

下の図に示すように、SwanHub プラットフォームはシンプルなモデルデモ展開ワークフローを提供し、ユーザーはいくつかのボタンをクリックするだけでコードとモデルの重みを視覚的で対話型のモデルに簡単に展開できます。 AI モデルの推論結果をオンラインでテストし、共同研究者、レビュー担当者、同僚との共有、またはインターネット上での公開をサポートします。 SwanHub は、Gradio、StreamLit などの主流の視覚化フレームワークもサポートしています。

解决大模型复现难、协作难，这支95后学生团队打造了一个国产AI开源社区

SwanHub は、結果を共有してオープンソースモデルを表示したい研究者にプラットフォームを提供するだけでなく、他の研究者も簡単に他の研究者にアクセスできます。 ' ソースの結果をオープンし、デモを体験し、ディスカッションフォーラムで学術的なディスカッションを実施します。

さらにチームは、SwanHub が間もなく 2 つの機能を開始すると述べました。1 つ目の機能はワンストップのコード展開サービスで、ユーザーは機械学習モデルをクラウドサービス API (アプリケーションプログラミングインターフェイス) として簡単に展開できるようになります。 )、コミュニティ全体または個人使用へのオープンもサポートしています。独自のモデルの API を公開する研究者にとっては、研究結果をさまざまなアプリケーションシナリオにより迅速に統合でき、研究の効果を向上させることができ、同時にユーザーにとっても研究結果をより多く利用できるようになります。アプリケーションは、さまざまな強力なオープンソース AI 機能にアクセスできます。 2つ目の機能は、模型実験管理ツール「SwanLab」で、ユーザーが独自に作成した実験ログプログラムをSwanLabに接続することで、オンラインでの実験ログ記録・管理機能を実現します。このプラットフォームは、トレーニングログの記録や中間モデルのホストに役立つだけでなく、視覚的なトレーニング結果、トレーニング完了メッセージのプッシュ、ハイパーパラメーターの記録と推奨、モデルのバージョン間の比較などの機能も提供し、研究者が迅速に試行錯誤して開発できるようにします。だけでなく、多くの側面が改善され、人々間の共同トレーニングの効率が向上しました。

解决大模型复现难、协作难，这支95后学生团队打造了一个国产AI开源社区

# 開発開発のモデルトレーニングログカスタード

##qi 4 人の若者技術的な理想

ほとんどの人は知りませんが、SwanHub オープンソースコミュニティプラットフォームの背後には 4 人の若い「95 年代以降」のメンバーがいるということです。

Lin Zeyi、Chen Shaohong、Han Xiangyu、Lei Qingyang の 4 人は、西安電子科学技術大学のキャンパスで出会い、それぞれのテクノロジーへの興味から「Lightyear Technology Studio」というクラブを結成しました。。その後、志を同じくする数人の若者が共同で「Ji Chuang Studio」を設立し、テクノロジー起業家としての道を歩み始めました。

SwanHub を構築するためのインスピレーションは、現在の AI 分野に基づいたオープンソースコミュニティのニーズに対するチームの洞察からだけでなく、彼ら自身の研究経験にも関連しています。

AI 研究に取り組む過程で、社内のコラボレーションやプロジェクトのプレゼンテーションからニーズや課題を感じることがよくあります。一般的に使用されているオープンソースプラットフォームの中には、基本的なホスティング機能を提供できるものもありますが、多くの場合、モデルベースのビジュアルコラボレーションセクションが欠如しており、研究室のメンバー間で取り組みを統合することが困難になっています。

ほとんどの研究者にとって、このような質問はよくあることです。複雑な実験バージョンや複数人の共同作業によって引き起こされる困難により、研究プロジェクトの開発が制限される一方で、モデルの導入の難しさとトレーニングプロセスの再現の難しさにより、チームの内部コミュニケーションも妨げられます。そして知識の蓄積。日々の学術交流活動においても、その成果や蓄積を直感的に発揮できるプラットフォームが不足している。

「これらの要因により、独自のコラボレーションおよび表示プラットフォームを構築したいという私たちの願望がさらに強化されました。」と SwanHub プロジェクト責任者の Lin Zeyi 氏は述べています。「私たちは、論文の複製、技術の選択、技術の共有などの面で、より多くの科学研究者や専門家を支援するために、AI 分野にオープンソースコミュニティを提供したいと考えています。さらに、このモデルベースの視覚的でインタラクティブなコラボレーションが実現することを願っています」このモデルは、AI プロジェクトの反復速度とチームメンバー間のコミュニケーションの効率を向上させ、不必要な待機コストとコミュニケーションコストを削減できます。」

したがって、SwanHub プロジェクトの当初のアイデアは、完全なセットを提供することでした。 AI ワークフロー、論文からオープンソースコード、展開、ビジュアルプレゼンテーションまで。この一連のワークフローを通じて、実験を行ったり論文を提出したりしながら、視覚的なデモンストレーションを簡単に構築して、同僚による迅速な再現やテストを行うことができます。一方で、インタラクティブなデモを提供する学術プロジェクトは、より高い普及とより良い評判を獲得する可能性が高く、その結果、より高い学術的影響力を得ることができます。

同時に、チームは業界の開発者のニーズも考慮しました。従来のソフトウェア開発とは異なり、AI 開発は実験科学であり、特に大規模モデルの時代では、技術の開発とテストの考え方も大きく変わりました。これらは優れたパフォーマンスを発揮しますが、その「インテリジェンス」を実際のシナリオでどのように活用し、プロのワークフローに統合するかについては、多くの場合、関連分野の専門家による綿密な実際の効果テストの実施が必要であり、このプロセスには課題もたくさんあります。

この点に関して、SwanHub プロジェクトのメンバーである Chen Shaohong 氏は深い経験を持っています。彼の AI 研究チームはかつて、スマートフォンメーカーのビデオ処理アルゴリズムを開発するプロジェクトに参加したことがありましたが、当時、研究チームのメンバーは全国の複数の都市に分散しており、作業のほとんどはオンラインでの共同作業が必要でした。ただし、アルゴリズムの更新、検証、クライアント側の展開、フィードバックのオンラインプロセス全体から判断すると、各モデルの反復には 1 単位として「1.5 週間」かかり、明らかに当初計画されていた実装リズムに追いついていないことがわかります。プロジェクト。

アルゴリズムの更新効率を高めるために、Chen Shaohong 氏は研究チームに SwanHub の使用を推奨しました。モデルのバージョンをトレーニングした後、デモはプラットフォーム上ですぐに更新できます。 PM、製品マネージャー、テスター、市場、その他の研究者を含むメーカーは、オンラインで効果をテストし、さまざまな改善フィードバックを提供できます。これにより、両者間のコミュニケーションとコラボレーションの効率が大幅に向上し、モデルの反復速度も大幅に向上します。

この種の学際的なコラボレーションは、これまでのコード中心のコラボレーションでは実現が困難でした。たとえば、マーケティング部門のプロジェクトメンバーに環境のインストールとプロジェクトの実行を依頼するのは妨げでした。これは非常に大きなことであり、Demoを核としたプラットフォームによって分野を超えたコラボレーションが可能になります。

オープンソースの価値: AI 技術変化の原動力

20 年前、「オープンソース: 革命の声」という本が出版されました。かつてテクノロジーの世界に旋風を巻き起こしました。この本は、Linux の父である Linus Torvalds やフリーソフトウェア運動の創始者 Richard Stallman などの伝説的な人物を含む、十数人のオープンソースパイオニアによるオープンソース文化の理解と精緻化を深く探求し、記録しています。

たとえば、Linus Torvalds は常にオープンソースの忠実な支持者であり、かつて「未来はすべてオープンソースです。」と公に表明しました。30 年以上にわたり、彼は Linux コミュニティへの努力を惜しみませんでした。 Linux をユーザー数がわずか数百人の無料オペレーティングシステムとしてスタートさせ、徐々に偉大で創造的なコミュニティに成長させることに尽力しました。

SwanHub チームのメンバーのオープンソースに対する熱意はこの本から生まれ、英語版しかなかった原稿を中国語に翻訳することも試みました。翻訳作業を通じて、オープンソースの役割についての理解を深めることができました。学術交流におけるオープンソースは、科学技術の発展を促進する上で大きな役割を果たしています。

これは、SwanHub オープンソースコミュニティを構築することの深い価値でもあります。今日の AI 分野に目を向けると、影響力のある進歩のほとんどはオープンサイエンスとオープンソースの原則に深く根ざしています。これらの原則は、知識の自由な普及と共有を提唱するだけでなく、地球規模での科学研究の協力とイノベーションを実質的に促進します。

Hugging Face コミュニティの「トランスフォーマーライブラリ」は典型的な例です。2016 年に設立されたこの会社は、使いやすいインターフェイスと多数のトランスフォーマーライブラリにより、すぐに AI コミュニティから広く認識されるようになりました。事前にトレーニングされたモデルを温かく歓迎します。これは、公開、共有、コラボレーションのためのプラットフォームを提供するだけでなく、革新的なコラボレーションモデルを切り開き、ディープラーニングモデルを使用する敷居を大幅に下げ、より多くの開発者や研究者がこれらのモデルを実際のプロジェクトや研究に適用できるようにします。

最も重要なのは、Hugging Face コミュニティが世界規模でのコラボレーションを奨励し、促進していることです。開発者と研究者は、独自に開発したモデルを共有し、コードを提供し、質問し、協力してこのプラットフォーム上でソリューションを見つけます。このブレインストーミングへの共同アプローチは、AI テクノロジーの開発を大きく促進し、これまで閉鎖的な研究だったいくつかの最先端テクノロジーを一般に公開しました。

Hugging Face の成功は偶然ではなく、オープンで協力的なテクノロジーコミュニティがテクノロジーの進歩を促進する上で重要な役割を果たしていることを明らかにしています。科学研究者がデータ、方法論、モデル、ツールなどの研究結果をオープンに共有するチャネルを持っている場合、その貢献は研究コミュニティの共有財産となる可能性があります。

このオープン共有の実践により、他の研究者は「巨人」の肩の上に立って、さらに先を見るだけでなく、探求と革新を続けることができます。このような環境では、AI技術の開発が好循環で急速に進む可能性があります。

現時点では、SwanHub と Hugging Face の目標は基本的に同じです。 SwanHub の将来について、チームはコラボレーション、展開、コミュニティなどにおける SwanHub の機能と経験を引き続き向上させたいと考えており、大規模モデルモジュラープログラミングツール SwanChain、モデル実験管理ツール SwanLab、 AI は研究のライフサイクル全体をカバーしており、オープンソースの道を歩み続けています。

解决大模型复现难、协作难，这支95后学生团队打造了一个国产AI开源社区