北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計-AI-php.cn

最初に大規模なモデルを見てみましょう。

ホームページ

テクノロジー周辺機器

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計

王林

Apr 09, 2024 pm 06:10 PM

python git ai オープンソース

テクノロジー界の最新の動向から判断すると、AI コード生成の概念は最近非常に人気が高まっています。

しかし、皆さん、AI プログラミングの質問はより人目を引くものだと感じていますが、実際の企業開発シナリオとなると、それだけでは十分ではないと常に感じていますか?

この瞬間、地味な上級プレイヤーである aiXcoder が行動を起こし、大きな動きを放ちました:

これは新しいオープンソースの大規模コードモデルです---aiXcoder-7B 基本バージョン は、 エンタープライズソフトウェア開発シナリオで を展開するのに特に適した大規模なコードモデルです。

ちょっと待ってください。#70 億パラメータ「のみ」を持つ大規模なコードモデルは、どのような AI プログラミングレベルを示すことができますか?

まず、HumanEval、MBPP、MultiPL-E の 3 つの主流の評価セットでのパフォーマンスを見てみましょう。その

平均スコアは、実際に 340 億のパラメーターを備えた Codellama を上回っています。

後者は Meta から来ており、オープンソース業界で最も先進的な大規模 AI プログラミングモデルである Llama2 に基づいていることを知っておく必要があります。

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計

#果てしなく、このモデルは多くのオープンソースの大規模モデルを破り、数百億のコードを含む大規模モデルの中で最強になっただけでなく、特別な利点があります:

従来の「質問ベース」のコード生成を変更します。特に

エンタープライズレベルのソフトウェアプロジェクト、を対象としています。実際の開発シナリオで最も効果的です -コード補完とファイル間を生成する機能がテストされており、両方とも "Long Bang Di" (No. 1) です。これは、aiXcoder-7B が「仮想」を実行せず、企業の実際のビジネスシナリオを保持できることを意味します。

たとえば、実際の開発シナリオに近い評価セットである CrossCodeEval では、aiXcoder-7B が同レベルのモデルの中で最高の結果を一気に達成しました。

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計数百億のパラメータを備えた最強のコードモデル

最初に大規模なモデルを見てみましょう。

今回オープンソースとして公開されたのは、aiXcoder-7B Base バージョン

(対応する Instruct バージョンも後日リリース予定)

で、最も驚くべき点は次のとおりです。コード生成機能 SOTA に加えて、aiXcoder-7B は主流の評価でさまざまなアルゴリズムの質問に勝っただけでなく、より重要なことに、実際のエンタープライズ開発シナリオと一致する複数ファイルの複雑なコードシナリオにおいて、aiXcoder-7B はさらに優れたパフォーマンスを発揮しました。同じ大きさのパラメータモデル。

現時点で AI プログラミングツールの最も実用的な機能は、完全なメソッドブロック、条件判断ブロック、ループ処理ブロック、例外キャッチブロック、その他の状況を直接生成することを含む、生成と完了であることを知っておく必要があります。

実際の開発シナリオでは、開発プロジェクト全体のさまざまな関連ファイルを理解し、それらを生成するために特に必要です。

テストの結果、単一ファイルコンテキストと組み合わせた aiXcoder-7B Base バージョンのコード補完機能は、StarCoder2、CodeLlama、およびその他のモデルを上回り、Python、JS、および Java 言語で最高の総合スコアを獲得していることが示されています。

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計 #これは、SantaCoder 評価セットの結果です。それだけではなく、aiXcoder チームはさらに大規模な評価コード生成完了データセット

(実際の開発シナリオデータからの 16,000 項目以上)

も提案しました。さらなる評価の後、その効果はより明らかです。本日、評価セットもモデルとともに オープンソースになりましたので、ぜひチャレンジしてみてください~これは言及する価値があります。チームも特別であるということ「イースターエッグ」が私たちに開かれました。つまり、aiXcoder-7B Base バージョンは、完了時にタスクを完了するために

より短いコードを使用する傾向があります。それは自然な「シンプルさ、美しさ」を持っています。 利点は自明です。プログラマーにとっては理解しやすく、バグは検出しやすくなります。

プライベート展開とパーソナライズされたカスタマイズが簡単なぜこれほど優れたコードモデルを備えたオープンソースである必要があるのでしょうか?

aiXcoder チームは、より多くの開発者の作業負担を軽減することが彼らの願いであると述べました。

今回、7Bの大規模なプロジェクトレベルのコードモデルをオープンソース化する理由は「エンタープライズ開発者が便利に使えるようにするため」です。

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計その特徴を 3 つの「簡単」で要約すると、次のようになります。

まず、導入が簡単です。

コードデータは企業の中核となる知的財産権です。したがって、民営化された展開と学習は避けられず、通常、企業の展開リソースは限られています。

aiXcoder-7B 基本バージョンのパラメーターサイズはわずか 7B で、非常に軽量で導入が簡単で、低コストと優れたパフォーマンスという利点があります。

2 番目のポイントはカスタマイズが簡単です。

多くの企業は独自のソフトウェア開発フレームワークと API ライブラリを持っており、それに関連するビジネスロジックとコードアーキテクチャの仕様は地域の状況に合わせてカスタマイズされており、非常にカスタマイズされています。同時に、これらのコンテンツは非公開です。

大規模モデルは、これらのエンタープライズコード資産を学習する必要があり、効果的なパーソナライズされたトレーニングを通じて、企業で実際に使用できるようになります。

aiXcoder-7B Base バージョンには、このような簡単なカスタマイズ機能があります。

さらに、組み合わせも簡単です。

aiXcoder チームは、将来エンタープライズサービスを提供する場合、複数の 7B モデルが MoE アーキテクチャを形成し、一連のソリューションに結合してエンタープライズカスタマイズサービスを完成できることを明らかにしました。

さまざまな企業は、独自のニーズを満たす MoE バージョンコードの大規模モデルソリューションを入手できます。

aiXcoder-7B Base バージョンはオープンソース路線を採用しており、B サイド市場に焦点を当て、将来的にはエンタープライズバージョンをリリースする予定であることがわかりました。

このようにして、aiXcoder はエンタープライズレベルのユーザーに正確かつ効率的かつ継続的なソフトウェア開発サービスを提供し続け、プロジェクトの開発効率とコード品質を継続的に向上させるのに役立ちます。

たとえば、デジタルインテリジェンス変革が進む業界の大手証券会社は、aiXcoder の大規模モデルソリューションを採用して、コードの大規模モデルをローカル環境に民営化して展開し、モデルの柔軟な調整方法を採用しました。インテリジェント開発システムが、それを使用するチームの規模に対応できるようにします。

この導入方法は、それをサポートするのに十分なコンピューティング能力を確保するだけでなく、高いハードウェアしきい値によって引き起こされる課題を回避するだけでなく、企業の日常的なコーディングのニーズにも応えることができます。

既存の実装データのフィードバックによると、パーソナライズされたトレーニングと企業独自のドメイン知識を組み合わせた後、ビジネスロジックコードでのコード生成の割合が以前と比べて 2 倍に増加しました。 結果を読んだ後、モデルの実際の効果は何でしょうか?次に、雰囲気を味わうためのデモをいくつか紹介します。

まず第一に、aiXcoder-7B Base バージョンは、ますます複雑なコードコンテキスト情報を理解し、コードの生成と補完を実行できます。モデルの事前トレーニングでサポートされるコンテキスト長は 32k で、推論フェーズの拡張は 32k に達します。 256k。

下の図に示すように、複数のツール関数を使用して 1,500 行を超えるコードをまとめ、ファイルの最後にコメントを付けてモデルにアクセスすると、関連する関数を正確に識別できます。ファイルの先頭に、関数情報の補完に関連するメソッドを組み合わせます。

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計第 2 に、エンタープライズ開発シナリオでは、より重要なのは、複数のコードファイルから必要なものを自動的に特定して抽出できるクロスファイル分析の機能です。

下の図に示すように、編集距離検索を実装するにはツリー構造に動的プログラミングを適用し、モデルがツリー構造上のディレクトリノードの動的プログラミング状態クラスを完成させる必要があります。

モデルは、編集距離の計算と別のファイルのローリング配列内の最小値の計算の間の関係を正確に識別するため、2 つの非現行ファイルを結合することで正しい予測結果が得られます。

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計上記はまだ完了していません。aiXcoder-7B Base バージョンの完成度はまだかなり

intelligent です。たとえば、ユーザーの導入状況が調整されると、現在の導入状況に応じて完了の長さを自動的に調整します。

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計同時に、コード補完のエキスパートとして、ユーザー入力の流暢さ

(つまり、一時停止時間) に基づいて、ユーザーが現在コードを必要としているかどうかを判断することもできます。 )

完了によって関数が勝手にトリガーされ、作業ステータスが中断されることはありません。

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計言わざるを得ません。とても良い香りがします。

大多数のプログラマーが本当に必要としているのは、

一般的なコードを理解するだけでなく、「当社の」コードも理解できる aiXcoder のような AI プログラミングツールです。

では、このような現実的なモデルはどのようにして作成されるのでしょうか?

チームによると、このモデルは完全に自己開発されています。

最初はトレーニングデータです

合計 1.2T ユニーク##が含まれています# 7B パラメーターレベルのトークンモデルでは、トレーニングデータの量が非常に多くなります。

チームは、「量の勝利」だけでなく、このデータで「質の勝利」も達成しました: 彼らは、数十の主流言語の構文分析とフィルタリングに多くの時間を費やし、静的分析により 163 個のバグと 197 個のバグを除去しました。。

2 つ目は、対象を絞ったトレーニング方法です。チームは、モデルの効果を完全に保証するために、実際の環境でプロジェクトレベルのコードに対してコード構造化されたセマンティックトレーニングを特別に実施します。

最後に、

トレーニングプロセスでは、複数のファイルを処理する問題が最初から十分に考慮され、クラスタリング、コード呼び出しグラフなどを組み合わせることによって複数のファイル間の相互注意が構築されました。。関係。

最終的に、より実際の開発シナリオに適した aiXcoder-7B Base バージョンが誕生しました。

aiXcoder の背後にあるチーム

このモデルの背後にある関係者を調べた結果、その起源は単純ではないことがわかりました。

まず第一に、aiXcoder チームです。は北京出身で、大学ソフトウェア工学研究所が支援しており、2013 年からコード生成に取り組んでいます。最も初期の国際的な深層学習ベースのコード生成論文は彼らからのものです;

2 番目に

、過去 10 年間で、チームは NeurIPS、ACL、IJCAI、ICSE、FSE、ASE などのトップ会議で 100 以上の関連論文を発表してきました。彼の論文の多くは国際的な学者によって「最初の成果」とみなされており、彼は複数の ACM Outstanding Paper Award を受賞しています。体力や強さが必要であり、実績や成果も必要であると言えます。

2017 年に、aiXcoder のオリジナルプロトタイプ

aiXcoder1.0

がリリースされ、自動コード補完と検索機能が提供されました。 2021 年 4 月、チームは、コード補完と自然言語レコメンデーションをサポートする、完全に独立した知的財産権を持つ 10 億レベルのパラメーターコード大規模モデルである

aiXcoder L バージョンをリリースしました。また、国内初の「大型モデル」によるインテリジェントプログラミング商品化となります。

その後、チームは懸命の努力を続け、2022 年 6 月に、メソッドレベルのコード生成をサポートする国内初の数百億レベルのパラメーターモデル aiXcoder XL バージョン

をリリースしました。完全に独立した知的財産権も持っています。

2023 年 7 月、aiXcoder チームは、自動コード補完、自動コード生成、コード欠陥の検出と修復、自動ユニットなどの機能を備えた エンタープライズへの適応に焦点を当てた aiXcoder Europa

を立ち上げました。テスト生成です。

aiXcoder Europa は、企業のデータセキュリティとコンピューティング能力の要件に基づいて、民営化された展開とパーソナライズされたトレーニングサービスを企業に提供し、大規模なコードモデルのアプリケーションコストを効果的に削減し、研究開発の効率を向上させることができると理解されています。

現在に至るまで、aiXcoder-7B Base バージョンが誕生しました。

科学技術の輝く銀河系では、あらゆる技術的進歩は新しい星の誕生のようなものであり、未来の無限の可能性を照らします。

大規模なコードモデルの機能が向上するにつれ、複雑なプログラミング問題を解決する際のその優れたパフォーマンスは、ソフトウェア開発の効率と品質の向上に重要な役割を果たすだけでなく、プログラミングの波を促進する役割も果たします。重要な役割を果たすことで、プログラマーの革新的な可能性も刺激され、探索と作成により多くのエネルギーを注ぐことができます。

言い換えれば、この最先端のコードモデルである aiXcoder-7B は、ソフトウェア開発自動化のプロセスを加速するだけでなく、テクノロジー業界の生態系を再構築し、将来の開発トレンドをリードします:

##ソフトウェア開発の自動化を加速します。

これは業界の一般的な傾向であるだけでなく、開発において避けられない選択でもあります。幸いなことに、私たちはこの転換点の前に立ち、このトレンドの台頭と実現を目の当たりにしています。

aiXcoder オープンソースリンク

：https://github.com/aixcoder-plugin/aiXcoder-7Bhttps:// gitee .com/aixcoder-model/aixcoder-7bhttps://www.gitlink.org.cn/aixcoder/aixcoder-7b-model

以上が北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7696

Java チュートリアル

1640

CakePHP チュートリアル

1393

Laravel チュートリアル

1287

PHP チュートリアル

1229

Related knowledge

WorldCoin（WLD）価格予測2025-2031：WLDは2031年までに4ドルに達しますか？ Apr 21, 2025 pm 02:42 PM

WorldCoin（WLD）は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか？ WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

クロスチェーントランザクションとはどういう意味ですか？クロスチェーントランザクションとは何ですか？ Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換：1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です Apr 21, 2025 pm 02:48 PM

暗号通貨市場での突入は投資家の間でパニックを引き起こし、Dogecoin（Doge）は最も困難なヒット分野の1つになりました。その価格は急激に下落し、分散財務財務（DEFI）（TVL）の総価値が激しく減少しました。「ブラックマンデー」の販売波が暗号通貨市場を席巻し、ドゲコインが最初にヒットしました。そのdefitVLは2023レベルに低下し、通貨価格は過去1か月で23.78％下落しました。 DogecoinのDefitVLは、主にSOSO値指数が26.37％減少したため、272万ドルの安値に低下しました。退屈なDAOやThorchainなどの他の主要なDefiプラットフォームも、それぞれ24.04％と20減少しました。

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain（ACI）の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative（ACI）の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

ハイブリッドブロックチェーン取引プラットフォームとは何ですか？ Apr 21, 2025 pm 11:36 PM

暗号通貨交換を選択するための提案：1。流動性の要件については、優先度は、その順序の深さと強力なボラティリティ抵抗のため、Binance、gate.ioまたはokxです。 2。コンプライアンスとセキュリティ、Coinbase、Kraken、Geminiには厳格な規制の承認があります。 3.革新的な機能、Kucoinのソフトステーキング、Bybitのデリバティブデザインは、上級ユーザーに適しています。

1つの記事を理解する：Binance Kernel Airdropプロセス Apr 21, 2025 pm 01:09 PM

暗号通貨の世界では、新しい機会が常に現れます。最近、Binanceによって開始されたKerneldao（Kernel）Megadropプロジェクトは、広範囲にわたる注目を集めています。このプロジェクトは、投資家に新しい投資オプションをもたらすだけでなく、BNB保有者に独自の利点を提供します。それで、カーネルダオとは正確には何ですか？このエアドロップはどのように実行されますか？ 1つの記事で理解しましょう。

Galaxy Digitalは、NASDAQリスティングと再編成のSEC承認を得ています Apr 21, 2025 pm 02:45 PM

Galaxy Digital Holdingsは、再編計画を正式に開始するために、米国証券取引委員会（SEC）によって承認されています！ Galaxy DigitalはSECによって承認されており、そのNASDAQリスティングと企業構造再編計画は正式に次の段階に入りました。ニュースは月曜日に発表されました。 SECは、Galaxy Digitalの登録声明を承認しました。この動きは、企業構造をケイマン諸島からデラウェアに移動させるという会社の計画の重要なステップであり、同時に、新しい親会社であるNewPubcoを設立します。 Galaxy DigitalのCEOは、次のように述べています。

See all articles

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計

最初に大規模なモデルを見てみましょう。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

北京大学の最も強力なオープンソース aiXcoder-7B コード モデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計

最初に大規模なモデルを見てみましょう。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

北京大学の最も強力なオープンソース aiXcoder-7B コードモデル!実際の開発シナリオに重点を置き、企業のプライベート展開向けに設計