Satu lagi pemain berkuasa telah ditambahkan pada bidang penjanaan imej dan video AI.
Ingat ahli sains penyelidikan Robin Rombach yang meletak jawatan daripada AI startup Stability AI pada akhir Mac tahun ini? Sebagai salah satu daripada dua pengarang utama yang membangunkan model graf Vincent Stable Diffusion, beliau menyertai Stability AI pada tahun 2022. Kini, hampir lima bulan selepas meninggalkan Stability AI, Robin Rombach telah menghantar tweet berita baik untuk memulakan perniagaannya sendiri! Beliau menubuhkan "Black Forest Labs" untuk memajukan model pembelajaran mendalam generatif SOTA berkualiti tinggi untuk imej dan video dan menjadikannya tersedia kepada seramai mungkin orang. Ahli pasukan terdiri daripada penyelidik dan jurutera AI yang cemerlang Pekerjaan wakil mereka sebelum ini termasuk model VQGAN dan Latent Diffusion, Stable Diffusion dalam bidang penjanaan imej dan video (termasuk Stable Diffusion XL, Rect Video Diffusion. Flow Transformers) dan Adversarial Diffusion Distillation untuk sintesis imej masa nyata ultra-pantas. Perlu diperhatikan bahawa selain Robin Rombach, Stable Diffusion mempunyai tiga pengarang lain yang telah menjadi ahli pasukan pengasas, termasuk Andreas Blattmann, Dominik Lorenz dan Patrick Esser. Mereka berdua meninggalkan Stability AI awal tahun ini, dengan beberapa spekulasi bahawa mereka meninggalkan untuk memulakan perniagaan mereka sendiri. Pada masa ini, Labs telah menyelesaikan pusingan pembiayaan benih $31 juta, diketuai oleh Andreessen Horowitz. Pelabur lain termasuk pelabur malaikat Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun dan beberapa pakar penyelidikan dan keusahawanan AI yang terkenal. Ia juga menerima pelaburan susulan daripada General Catalyst dan MätchVC. The Labs juga telah menubuhkan lembaga penasihat, yang ahlinya termasuk Michael Ovitz, taikun teknologi dengan pengalaman luas dalam industri penciptaan kandungan, dan Profesor Matthias Bethge, perintis dalam pemindahan gaya saraf dan pakar terkemuka dalam AI terbuka penyelidikan di Eropah. Sudah tentu, Black Forest Labs telah melancarkan siri model pertamanya "FLUX.1", yang merangkumi tiga model varian berikut. Varian pertama ialah FLUX.1 [pro], yang merupakan model gambar rajah SOTA Vincent baharu dengan butiran imej yang sangat kaya, keupayaan mengikuti pantas yang kuat dan gaya yang pelbagai. Pada masa ini tersedia melalui API. - Alamat API: https://docs.bfl.ml/
Yang kedua ialah FLUX.1 [dev], iaitu versi terbuka FLUX.1 pro] berat, varian bukan komersial dan disuling terus berdasarkan yang terakhir. Model ini mengatasi model imej lain seperti Midjourney dan Stable Diffusion 3. Kod inferens dan pemberat sudah tersedia di GitHub. Gambar di bawah adalah perbandingan dengan model imej yang bersaing. - Alamat GitHub: https://github.com/black-forest-labs/flux
Yang ketiga adalah sumber terbuka , ia adalah super FLUX.1 [schnell it] Model 4 langkah yang cekap, mengikut protokol Apache 2.0. Model ini sangat hampir dengan [dev] dan [pro] dalam prestasi dan boleh digunakan pada Muka Memeluk. - Alamat Muka Berpeluk: https://huggingface.co/black-forest-labs/FLUX.1-schnell
동시에 Black Forest Labs도 홍보를 시작했습니다. 다음 목표는 모두가 이용할 수 있는 SOTA Wensheng 비디오 모델 출시입니다. 모두가 기대해도 좋습니다! 즉각적인 성공: Vincent 피규어 모델 시리즈 "FLUX.1"이 출시됩니다이번 Black Forest Labs에서 출시한 세 가지 모델은 모두... 다중 모드 및 병렬 확산 변압기를 위한 하이브리드 아키텍처입니다. 매개변수 개수에 따라 '중컵', '대형컵', '특대컵' 등 일련의 모델을 나누는 타사와 달리 FLUX.1 제품군은 12개라는 거대한 규모로 일률적으로 확장됐다. 10억 개의 매개변수. 연구팀은 기존 SOTA 확산 모델을 업그레이드하기 위해 Flow Matching 프레임워크를 채택했습니다. 공식 블로그의 노트를 보면 연구팀이 Stability AI에서 작업하는 동안(올해 3월) 제안된 Rectified flow+Transformer 방식을 따랐음을 유추할 수 있습니다. - 문서 링크: https://arxiv.org/pdf/2403.03206.pdf
또한 회전 위치 임베딩 및 병렬 주의 레이어를 도입했습니다. 이러한 방법은 모델의 이미지 생성 성능을 효과적으로 향상시키며, 하드웨어 장치에서 이미지를 생성하는 속도도 빨라졌습니다. 이번 블랙포레스트랩스는 해당 모델에 대한 자세한 기술을 공개하지 않았지만, 좀 더 자세한 기술보고서는 곧 공개될 예정입니다. 이 세 모델은 각자의 분야에서 새로운 기준을 세웠습니다. 생성된 이미지의 아름다움, 이미지가 텍스트 프롬프트에 얼마나 잘 맞는지, 크기/종횡비 가변성, 다양한 출력 형식 등 FLUX.1 [pro] 및 FLUX.1 [dev]는 범위를 뛰어 넘습니다. Midjourney v6.0, DALL・E 3(HD) 및 SD3-Ultra와 같은 인기 있는 이미지 생성 모델. FLUX.1 [schnell]은 동종 경쟁사를 능가할 뿐만 아니라 Midjourney v6.0 및 DALL・E 3(HD) 등을 능가하는 현재까지 가장 발전된 몇 단계 모델입니다. - 증류된 모델. 이 모델은 사전 훈련 단계의 전체 출력 다양성을 유지하도록 특별히 미세 조정되었습니다. FLUX.1 시리즈 모델은 현재의 최첨단 기술에 비해 개선의 여지가 많이 남아 있습니다. FLUX.1 시리즈의 모든 모델은 0.1~2메가픽셀의 다양한 화면비와 해상도를 지원합니다. 행동이 빠른 일부 네티즌들은 이미 그것을 먼저 경험해 본 적이 있을 것입니다. 블랙 포레스트 연구소가 거듭 강조한 '최강'은 단순한 자기 홍보가 아닌 것 같습니다. 알파카 매트의 패턴을 자세히 보면 왜곡이나 변형이 없는 간단한 프롬프트 단어가 이러한 효과를 만들 수 있습니다. ㅋㅋ 프롬프트 단어: 하얀 라마 위에 타고 있는 에메랄드 에뮤. ㅋㅋㅋ 프롬프트 t 단어: 말 한 마리가 강에서 두 개의 알리게이터를 가지고 놀고 있습니다.
세 가지 모델 중 성능이 조금 약한 FLUX.1 [schnell]도 빠르고 강력하게 사용해본 경험을 공유하며 한숨을 쉬지 못하는 네티즌도 있었습니다. , 사용하기가 너무 쉬웠습니다. Stable Diffusion과 Stability AI 작성자 간의 '불만'에 대해 잘 모르는 네티즌들은 다음과 같이 한탄했습니다. Vincentian 그래프 모델이 갑자기 등장했는데, 정말 무섭도록 강력합니다. Stable Diffusion의 저자와 이전 회사인 Stability AI의 이야기는 이 사이트에서 이전 보고서를 읽을 수 있습니다. 가치가 1억 달러였을 때 Stable Diffusion 팀은 진짜 공무원은 누구일까요? 가장 강력한 세 가지 Vincentian 모델 외에도 Black Forest Labs는 매장에서도 "큰 움직임"을 선보입니다. 이미지 생성 모델을 위한 이러한 강력한 기능을 통해 Black Forest Labs는 비디오 생성 모델을 위한 탄탄한 기반을 마련했으며, 그들이 예언한 대로 컴퓨터 비전 분야의 최고 과학자들은 모두를 위한 최첨단 비디오 기술을 향해 나아가고 있습니다. . 참고링크: 회사 블로그: https://blackforestlabs.ai/announcements/
Atas ialah kandungan terperinci Semua pekerja meninggalkan kelab lama mereka, dan Stable Diffusion mengetuai pasukan itu untuk memulakan perniagaan sebaik sahaja ia mengalahkan MJ v6 dan SD3 serta-merta, dan juga membuka sumber. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!