구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요
친구 여러분, 이 영어 단어가 무엇인지 아시나요?
Pneumonoultramicroscopicsilicovolcanoconiosis.
이것은 세계에서 가장 긴 단어로 인식됩니다. 45자로 된 단어는 "폐에 화산 실리카 입자가 침착되어 발생하는 질병"(일반적으로 화산 규폐증으로 알려짐)을 의미합니다.
하지만 이 단어의 철자를 묻는 대신... 그림을 그리면 어떨까요?
(읽지도 못하는데 그림을 그리시나요???)
구글이 제안한 최신 AI Parti는 이런 문제를 쉽게 해결할 수 있습니다.
이 단어를 Parti에 "공급"하면 적절한 방식으로 여러 개의 합리적인 폐 질환 사진을 생성할 수 있습니다.
그러나 이는 현재 가장 발전된 Google에 따르면 Parti의 능력에 대한 작은 테스트일 뿐입니다. '텍스트를 이미지로' AI.
예를 들어 "시드니 오페라 하우스와 에펠탑을 결합하세요"라고 말하면 출력 결과는 다음과 같습니다.
(모르시면 정말 화보인 줄 알겠습니다)
그리고 알고리즘 경로에서는 수학적으로 Google 자체 Imagen과 다릅니다. Parti는 "AI 페인팅"을 새로운 수준으로 끌어 올렸다고 할 수 있습니다.
Google AI 책임자인 Jeff Dean도 여러 번 트윗을 올리며 즐거운 시간을 보냈습니다.
200억 개의 매개변수로 확장 가능: 더 현실적이고 "더 똑똑"
사실 반면에 Parti의 기능은 그렇지 않습니다. 거기서 멈춰라.
모델이 200억 개의 매개변수로 확장 가능하기 때문에 생성되는 이미지는 더욱 상세하고 사실적입니다.
단 몇 단어든, 50 단어가 넘는 짧은 단락이든 명확하게 표시할 수 있습니다.
예를 들어 바이올린 뒷면, 바이올린 뒷면.
아니면 반 고흐의 "별이 빛나는 밤"에 묘사된 밤 풍경일 수도 있습니다. ps. 이 문단에는 67개의 단어가 있습니다.
파티는 하나의 패키지로 모든 종류의 그림을 그릴 수 있다는 결과가 나왔습니다~
이것이 파티의 두 번째로 뛰어난 능력이기도 합니다. , 그러나 스타일을 변경할 수도 있습니다.
"너구리는 정장, 모자, 지팡이, 쓰레기봉투를 입고 있다"는 독특한 설명도 있어 디테일도 놓치지 않고 꽃같은 작품을 연출할 수 있다.
스타일로는 반고흐 스타일, 이집트 파라오 스타일, 픽셀 스타일, 중국 전통 회화 스타일, 추상 스타일...
때때로 말장난을 하기도 합니다.
(Toad'ay)
특히 테스트 결과 측면에서 Parti는 MS-COCO 및 Localized Narrative(LN, 4배 긴 설명)에 대한 FID 점수 측면에서 가장 진보된 결과를 달성했습니다.
특히 MS-COCO 제로 샘플의 FID 점수는 7.23에 불과하고, 미세 조정된 FID 점수는 3.22로 이전 Imagen과 DALL-E 2를 뛰어 넘었습니다.
모든 구성 요소는 트랜스포머입니다
한 달이 지난 후 Google은 AI 페인팅을 새로운 차원으로 끌어 올렸지만 저자는 다음과 같이 말했습니다. 비결은 간단합니다.
Parti는 주로 텍스트 생성 이미지를 시퀀스 간 모델링으로 처리합니다. 이는 텍스트 토큰이 인코더에 대한 입력으로 제공되고 대상 출력이 텍스트에서 이미지로 변경되는 기계 번역과 다소 유사합니다.
구조적으로 모든 구성 요소는 인코더, 디코더, 이미지 태거의 세 부분으로만 구성되며 모두 표준 Transformer를 기반으로 합니다.
먼저 이미지는 Transformer 기반 이미지 태거 ViT-VQGAN을 사용하여 개별 태그 시퀀스로 인코딩됩니다.
그리고 Transformer의 인코딩-디코딩 구조를 통해 매개변수가 200억개로 확장됩니다.
초기 GAN을 제외하고 텍스트로부터 이미지 생성에 대한 이전 연구는 크게 두 가지 아이디어로 나눌 수 있습니다.
One은 자동 회귀 모델을 기반으로 합니다. 먼저 텍스트 특징을 이미지 특징에 매핑한 다음 Transformer와 유사한 시퀀스 아키텍처를 사용하여 언어 입력과 이미지 출력 간의 관계를 학습합니다.
이 접근 방식의 핵심 구성 요소는 각 이미지를 일련의 개별 단위로 변환하는 이미지 태거입니다. 예를 들어 DALL-E와 CogView는 이 아이디어를 채택합니다.
다른 하나는 이 기간 동안 자주 발전해 온 경로입니다. DALL-E 2 및 Imagen과 같은 확산 기반의 텍스트-이미지 모델입니다.
그들은 이미지 태거를 버리고 대신 확산 모델을 사용하여 이미지를 직접 생성했습니다. 볼 수 있는 것은 이러한 모델이 더 높은 품질의 이미지를 생성하고 MS-COCO 제로 샷 FID에서 더 나은 점수를 얻는다는 것입니다.
Parti 모델의 성공은 자동 회귀 모델을 사용하여 텍스트 생성 이미지의 효과를 향상시킬 수 있음을 입증했습니다.
동시에 Parti는 12개 카테고리와 11개 챌린지에서 모델의 능력을 측정하는 데 사용되는 새로운 벤치마크 테스트인 PartiPrompts도 도입 및 출시했습니다.
파티에는 여전히 일정한 한계가 있고 연구원들은 몇 가지 버그도 보여주었습니다.
예를 들어 부정적인 설명은 쓸모가 없습니다~
바나나 없는 접시, 컵 옆에는 오렌지 주스 없는 유리잔.
또한 불합리하게 크기를 조정하는 등 상식적인 실수도 저지르세요. 예를 들어, 이 사진에서 로봇은 경주용 자동차보다 몇 배나 더 큽니다.
레이싱 슈트와 검은색 바이저를 착용한 반짝이는 로봇이 F1 차량 앞에 자랑스럽게 서 있습니다. 도시 풍경 위로 해가 집니다. 만화 그림입니다.
Google "롤 자신"
이 연구는 Google Research에서 수행되었으며 팀원 대부분은 중국인입니다.
핵심 연구진으로는 Yuanzhong Xu, Thang Luong 등이 있으며, 현재 Google에서 AI 관련 연구를 진행하고 있습니다.
(Thang Luong은 Google Scholar에서 최대 20,000회 이상 인용되었습니다)
Δ왼쪽: Yuanzhong Xu; 오른쪽: Thang Luong
하지만 흥미로운 점은 둘 다 "AI가 그림을 그리도록 하는 단어"라는 것입니다. , 동일한 Imagen이 Google에서 생성되었으며 Parti와 많은 관련이 있습니다.
Parti의 GitHub 프로젝트 문서에 언급되어 있습니다.
Imagen을 출시하기 전에 최근 전체 결과를 공유해 주신 Imagen 팀에 감사드립니다.
CF 안내에서 중요한 발견은 최종 Parti 모델에 특히 도움이 되었습니다.
그리고 Imagen의 작가 중 한 명인 Burcu Karagol Ayan도 Parti 프로젝트에 참여했습니다.
(Google이 "스스로 굴려"는 것과 같습니다)
그뿐만 아니라 "옆집" DALL-E 2의 저자인 Aditya Ramesh도 Parti에 대한 MS-COCO 평가에 대해 논의했습니다.
및 DALL-Eval 작성자도 Parti 데이터 작업에 도움을 제공했습니다.
한 가지 더
한 가지 말씀드릴 점은 "텍스트 생성 이미지"는 연구자만이 사랑하는 것이 아닙니다.
네티즌들은 이 게임을 가지고 '놀기'에 결코 지치지 않습니다(너무 상상력을 많이 발휘하지 마세요).
얼마 전 Imagen에게 송나라 'VR을 입은 호랑이'를 그려달라고 부탁했는데, 이것이 바로 AI 그림배틀로 진화했습니다.
Δ사진: Art by Imagen
DALL·E, MidJourney 등이 "소식을 듣고" 참여하기 위해 왔습니다.
Δ DALL·E 그림
Wordle과 DALL-E 2의 조합도 있습니다:
...
그런데 이번에 Parti로 돌아오니 재미있긴 하지만 그래도 일부 네티즌들이 제기했습니다. "영혼을 꿰뚫는" 질문:
언제 상용화되나요? 혼자서 "밀폐된 문 뒤에서 노는" 것은 의미가 없습니다.
Parti 논문 주소:
https://parti.research.google/
GitHub 프로젝트 주소:
https://github.com/google-research/parti
참조 링크 :
[1]https://twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289 [3]https://imagen.research.google/
위 내용은 구글의 새로운 AI가 뜨겁다! 세상에서 가장 긴 단어를 그릴 수 있어요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











이 기사에서는 데비안 시스템에서 Apache의 로그 형식을 사용자 정의하는 방법에 대해 설명합니다. 다음 단계는 구성 프로세스를 안내합니다. 1 단계 : Apache 구성 파일 액세스 Debian 시스템의 기본 Apache 구성 파일은 일반적으로 /etc/apache2/apache2.conf 또는 /etc/apache2/httpd.conf에 있습니다. 다음 명령을 사용하여 루트 권한으로 구성 파일을 엽니 다.

Tomcat 로그는 메모리 누출 문제를 진단하는 열쇠입니다. Tomcat 로그를 분석하면 메모리 사용 및 가비지 수집 (GC) 동작에 대한 통찰력을 얻을 수 있으며 메모리 누출을 효과적으로 찾아서 해결할 수 있습니다. 다음은 Tomcat 로그를 사용하여 메모리 누출 문제를 해결하는 방법입니다. 1. GC 로그 분석 먼저 자세한 GC 로깅을 활성화하십시오. 다음 JVM 옵션을 Tomcat 시작 매개 변수에 추가하십시오. -xx : printgcdetails-xx : printgcdatestamps-xloggc : gc. 분석 gc.log

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

이 기사에서는 데비안 시스템에서 iptables 또는 UFW를 사용하여 방화벽 규칙을 구성하고 Syslog를 사용하여 방화벽 활동을 기록하는 방법에 대해 설명합니다. 방법 1 : iptablesiptables 사용은 데비안 시스템의 강력한 명령 줄 방화벽 도구입니다. 기존 규칙보기 : 다음 명령을 사용하여 현재 iptables 규칙을보십시오. Sudoiptables-L-N-V 특정 IP 액세스 허용 : 예를 들어, IP 주소 192.168.1.100 허용 포트 80 : Sudoiptables-eActip-ptcp-d- 포트80-S192.16

이 안내서는 데비안 시스템에서 syslog를 사용하는 방법을 배우도록 안내합니다. Syslog는 로깅 시스템 및 응용 프로그램 로그 메시지를위한 Linux 시스템의 핵심 서비스입니다. 관리자가 시스템 활동을 모니터링하고 분석하여 문제를 신속하게 식별하고 해결하는 데 도움이됩니다. 1. syslog에 대한 기본 지식 syslog의 핵심 기능에는 다음이 포함됩니다. 로그 메시지 중앙 수집 및 관리; 다중 로그 출력 형식 및 대상 위치 (예 : 파일 또는 네트워크) 지원; 실시간 로그보기 및 필터링 기능 제공. 2. Syslog 설치 및 구성 (RSYSLOG 사용) Debian 시스템은 기본적으로 RSYSLOG를 사용합니다. 다음 명령으로 설치할 수 있습니다 : sudoaptupdatesud

데비안 시스템에서 Nginx의 액세스 로그 및 오류 로그의 기본 스토리지 위치는 다음과 같습니다. 액세스 로그 (AccessLog) :/var/log/nginx/access.log 오류 로그 (ErrorLog) :/var/log/nginx/error.log 위 경로는 표준 Debiannginx 설치의 기본 구성입니다. 설치 프로세스 중에 로그 파일 스토리지 위치를 수정 한 경우 Nginx 구성 파일 (일반적으로 /etc/nginx/nginx.conf 또는/etc/nginx/sites-available/directory)을 확인하십시오. 구성 파일에서
