Devin は、10 個の IOI 金メダルを獲得した起業家チームである Cognition AI によって開発された世界初の AI プログラマー インテリジェンスであり、リリースされるやいなやテクノロジー界を興奮させました。
デモンストレーションでは、通常のプログラマーが完了するまでに多くの時間を費やす必要があるタスクの多くを、デビンはほぼ単独で完了することができ、そのパフォーマンスは通常のプログラマーとまったく遜色ありません。
しかし、製品の性能の境界はどこにあるのでしょうか? 実際の経験とデモンストレーションの間にはギャップがあり、実際のテスト後の効果にも依存します。
スタンフォード出身のこの男は、デビンが釈放されるとすぐにチームに連絡し、直接経験する資格を獲得しました。
彼は Devin にさまざまな難易度のいくつかのプロジェクトを手伝ってもらうよう依頼し、ビデオを録画し、その使用方法を Twitter Feel に書き留めました。
Devin の次のタスクは、一般ユーザーが大きなモデルで直接チェスをプレイできる Web サイトを作成することです。
ユーザーが動作を行うたびに、システムはそれをプロンプトの単語に変換しますGPT-4 が応答すると、この応答はチェスをプレイするための特定のステップに変換され、チェス盤上に表示されます。
私の要望によると、システムはかなりの数のコンポーネントで構成される必要があります。
彼が個人的に最も懸念しているのは、デビンがこのシステムの開発プロセス中に次のことができるかどうかです:
予想外だったのは、Devin が API キーの提供を求めただけでなく、試用プロセス中に API キーを適切に保護したことです。
#しかし、Devin の現在のフィードバック速度はまだ非常に遅いです。バックグラウンドでより多くのエージェント プロンプトが存在するためだと推測しています。見えます。
Xiaoge が API キーを要求するリクエストを開始してから約 19 分かかりました。
私の推測では、バックグラウンドで多数のプロンプトを実行していることが遅延の原因である場合、時間の経過とともに遅延が加速するはずです。
なぜなら、後で専用の GPU にアクセスしたり、Claude または OpenAI と連携してレイテンシを短縮したりできるからです (おそらく GPT-4 または Claude Opus)。
デビンはまず計画を立てました。
ユーザーは右上隅で「フォロー」状態を切り替えることができるため、ユーザーは画面を #Devin現在アクティブなタブに自動的に移動できます。 。
#弟は、さまざまな体位の変化を随時観察したかったため、次の状態をオンにしませんでした。
プランナーは現在のタスクを随時更新します。
シェルは見た目は普通のシェルと変わりませんが、使ってみるととても楽しいです。
Devin は作業プロセス中に複数のシェルを開きます。ユーザーはシェルの下部にある青いスライダーをドラッグして、Devin が作成したコマンドを表示できます。
下の図は、デバッグしようとしたときにレンダリングされなかったチェス盤のコンテンツです。
#同時に、弟は別のデータ分析タスクを実行するように依頼しました。
私の兄はデビンに、「過去 50 年間の南極の海水温の地図を作成してほしい」と頼みました。このリクエストに関しては、2 つの側面が難しいと思います:
空間データの描画/視覚化の処理。
#データは実際には ASCII ファイルですが、少し奇妙に感じます。
ダイアログ「Python スクリプトのデバッグ...」のステップの 1 つをクリックすると、そのステップに関連するコード ライブラリ セクションが開き、特定のステップを追跡できます。ある時点で何が起こるか。
私がもっと心配しているのは、API キーを要求する必要がない場合、Devin はコーディングをやめられないように見えることです。
そこで彼は、以前に行ったリクエストを変更するか、何か別のものを指定して、Devin のコーディング プロセスを中断できるかどうかを確認しようとしました。
ほとんどのユーザーは、コーディング中に気が変わったり、システムに何か新しいものを追加したい可能性があるため、この状況に対処できる必要があります。
これは、エンコード プロセス中のスクリーンショットです:
ブラウザ インターフェイスは次のように表示されます。
その後、弟はデータ視覚化タスクの別の要件について言及し、高温を青、低温を赤に設定するようにシステムに要求しました。
コーディングプロセスを中断しないために、デビンは兄弟の一時的なリクエストを記録するために別の作業スレッドを開始したようです。
最後に、Devin は APP を Netlify にデプロイしました。アプリケーションはすでにオンラインになっていました。
ウェブページへのリンク: https://t.co/wTbtz2waDn
人間と同じ書き込み プログラムと同じように、最初のバージョンにはバグがあるはずです。
私が要求したのは南極の気温記録だったので、デビンには少々わかりにくかったようです。
そこで、リクエストされた場所を北米に変更しました。
弟は、デビンによるバグ修正の結果を提供しませんでした。暫定的な概要 Devin と開発した最初の Web サイトを使用した経験。
まず利点について話しましょう:
Devin は、次の分野で良い仕事をしました。製品化について彼は述べています。ユーザー エクスペリエンスは、単なるダイアログ ボックスではなく、完全な製品です。
AI はシステムの最も重要な部分ですが、AI 機能をサポートする製品構造が Devin のハイライトです。
Devin は、自動デプロイメント、API キー保護、いつでも要件の変更と追加、その他の非常に優れた機能を実行できます。
製品の完成度は非常に高く、平均的なデモをはるかに上回っています。
欠点について話しましょう:
デビンの反応はまだ非常に遅いです。もちろん、弟も同様です。インターネットに接続するのは 1M Starlink なので、応答が遅いのはおそらく彼自身のせいだと思います。
2 つ目は、ユーザー自身がコードを直接編集することは許可されておらず、共同でコードを完成させる方法がないことです。
もちろん、最初のチェスプレイ アプリケーションは Devin を困惑させ、最終的に展開は完了しませんでした。また、データ視覚化タスクにはいくつかのバグがあるようです。
最後に、Devin を使用して、ユーザーが Github リポジトリを Claude プロンプトに変換できるようにする Chrome プラグインを作成しました。
プラグインのダウンロード アドレス: https://t.co/k3l8JTWK7Z
ネットユーザーの評価ネットユーザーは、この実際のテストを読んでも、まだ少しがっかりしました。結局のところ、このタスクはジュニア プログラマーでも実行できますが、デビンの視覚化プロジェクトの結果は、バグのある Web ページが 1 つだけ作成されました。
Devin は本質的にはオンラインでアクセスできる単なる大きなモデルであるようですが、実用的な問題を解決することはまだ困難です。
以上がDevin の実感:完成度は非常に高く、一度コーディングを始めるとやめられないが、プログラマーの代替には程遠い。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。