트랜스포머 6주년 기념: 당시에는 NeurIPS Oral도 획득하지 못했지만 8명의 저자가 여러 AI 유니콘을 설립했습니다.
ChatGPT부터 AI 그리기 기술까지, 최근 인공 지능 분야의 획기적인 발전은 Transformer 덕분일 수 있습니다.
오늘은 유명한 트랜스포머 페이퍼가 제출된 지 6주년이 되는 날입니다.
논문 링크: https://arxiv.org/abs/1706.03762
6년 전, 사전 인쇄 용지 플랫폼 arXiv에 다소 거창한 이름의 논문이 업로드되었습니다. "xx is All You Need"라는 문구는 AI 분야의 개발자들에 의해 반복적으로 반복되었으며 심지어 논문 제목에서도 트렌드가 되었습니다. Transformer는 더 이상 Transformers를 의미하지 않으며, 이제 AI 분야에서 가장 진보된 기술을 나타냅니다. . 기술.
6년 후 이 논문을 되돌아보면 NVIDIA AI 과학자 Jim Fan이 요약한 것처럼 흥미롭거나 잘 알려지지 않은 측면을 많이 찾을 수 있습니다.
"주의 메커니즘"은 Transformer의 저자가 제안한 것이 아닙니다.
Transformer 모델은 전통적인 CNN 및 RNN 단위를 버리고 전체 네트워크 구조가 주의 메커니즘으로 구성됩니다.
Transformer 논문의 이름은 "Attention is All You Need"이고 우리는 그것 때문에 어텐션 메커니즘을 계속 칭찬하고 있지만 흥미로운 사실에 주목해 주세요. 주의를 발명한 것은 Transformer의 연구자들이 아니었습니다. 그러나 그들은 이 메커니즘을 극단적으로 받아들였습니다.
Attention Mechanism은 2014년 딥 러닝 선구자 Yoshua Bengio가 이끄는 팀에 의해 제안되었습니다:
"Neural Machine Translation by Jointly Learning to Align and Translate", 제목은 비교적 간단합니다.
이 ICLR 2015 논문에서 Bengio 등은 RNN + "컨텍스트 벡터"(즉, 주의)의 조합을 제안했습니다. NLP 분야에서 가장 위대한 이정표 중 하나이지만 Transformer에 비해 훨씬 덜 알려져 있습니다. Bengio 팀의 논문은 지금까지 29,000회 인용되었으며, Transformer는 77,000회 인용되었습니다.
AI의 주의 메커니즘은 자연스럽게 인간의 시각적 주의를 모델로 합니다. 인간의 뇌에는 타고난 능력이 있습니다. 사진을 볼 때 먼저 사진을 빠르게 스캔한 다음 집중해야 할 대상 영역에 초점을 맞춥니다.
부분적인 정보라도 버리지 않으면 필연적으로 생존에 도움이 되지 않는 쓸데없는 일을 많이 하게 됩니다. 마찬가지로, 딥러닝 네트워크에 유사한 메커니즘을 도입하면 모델을 단순화하고 계산 속도를 높일 수 있습니다. 본질적으로 Attention은 많은 양의 정보에서 소량의 중요한 정보를 걸러내고 이 중요한 정보에 집중하고 중요하지 않은 정보는 대부분 무시하는 것입니다.
최근에는 컴퓨터 비전 방향으로 이미지의 수용 필드를 캡처하거나 NLP에서 핵심 토큰이나 기능을 찾는 등 딥러닝의 다양한 분야에서 Attention 메커니즘이 널리 사용되었습니다. 수많은 실험을 통해 Attention 메커니즘을 갖춘 모델이 이미지 분류, 분할, 추적, 향상은 물론 자연어 인식, 이해, 질문 응답, 번역과 같은 작업에서 상당한 성능 향상을 달성했음이 입증되었습니다.
attention 메커니즘을 도입한 Transformer 모델은 범용 시퀀스 컴퓨터로 간주할 수 있습니다. Attention 메커니즘을 사용하면 모델이 입력 시퀀스를 처리할 때 시퀀스의 다양한 위치 상관 관계에 따라 다양한 Attention 가중치를 할당할 수 있습니다. Transformer가 장거리 종속성과 컨텍스트 정보를 캡처하여 시퀀스 처리 효과를 향상시킬 수 있습니다.
하지만 그 당시에는 Transformer도, 원래의 주목 논문도 유니버설 시퀀스 컴퓨터에 대해 언급하지 않았습니다. 대신 저자는 이를 좁고 구체적인 문제인 기계 번역을 해결하기 위한 메커니즘으로 봅니다. 따라서 미래에 우리가 AGI의 기원을 추적하면 "겸손한" Google 번역까지 추적할 수 있을 것입니다.
NeurIPS 2017에서 채택되었지만 Oral조차 받지 못했습니다.
Transformer 이 논문은 현재 큰 영향력을 갖고 있지만, 세계 최고의 AI 학회인 NeurIPS 2017에서는 Oral조차 받지 못했습니다. , 상을 받는 것은 말할 것도 없고요. 해당 컨퍼런스에는 총 3,240개의 논문이 제출되었으며, 그 중 678개가 컨퍼런스 논문으로 선정되었습니다. 이 논문 중 Transformer 논문은 구두 논문 40개, Spotlight 논문 112개, 최우수 논문 3개였습니다. . Thesis, Test of time 상, Transformer는 수상 자격이 없습니다.
NeurIPS 2017 논문상은 놓쳤지만 Transformer의 영향력은 누구에게나 명백합니다.
Jim Fan은 다음과 같이 말했습니다. 영향력 있는 연구가 영향력을 갖기 전에 사람들이 그 중요성을 깨닫는 것이 어려운 것은 심사위원의 잘못이 아닙니다. 그러나 즉시 발견될 만큼 운이 좋은 논문도 있습니다. 예를 들어 He Yuming 등이 제안한 ResNet은 CVPR 2016에서 최우수 논문을 수상했습니다. 이 연구는 충분한 가치가 있으며 최고의 AI 컨퍼런스에서 올바르게 인정받았습니다. 하지만 2017년 현재, 매우 똑똑한 연구자들은 LLM이 가져올 변화를 예측하지 못할 수도 있습니다. 1980년대와 마찬가지로 2012년 이후 딥 러닝이 가져온 쓰나미를 예측할 수 있는 사람은 거의 없습니다.
각각 멋진 삶을 살고 있는 8명의 저자
당시 이 논문의 저자는 8명이었는데, 그들은 Google과 토론토 대학교 출신이었습니다. 5년 후, 논문의 저자 대부분이 사임했습니다. 원래 기관.
2022년 4월 26일, "Adept"라는 회사가 공식적으로 설립되었습니다. Transformer 논문의 저자인 Ashish Vaswani와 Niki Parmar를 포함하여 9명의 공동 창립자가 있습니다. ㅋㅋㅋ 깊이 언어 모델링 학습의 초기 적용. 2016년에 Google Brain에 합류하여 Transformer에 대한 연구를 이끌었고 2021년에 Google을 떠났습니다.
Niki Parmar
퇴사 후 두 사람은 Adept를 공동 창립하고 각각 최고 과학자(Ashish Vaswani)와 최고 기술 책임자(Niki Parmar)를 역임했습니다. Adept의 비전은 다양한 소프트웨어 도구와 API를 사용하도록 훈련된 "인공지능 팀원"이라는 AI를 만드는 것입니다. 2023년 3월, Adept는 미화 3억 5천만 달러 규모의 시리즈 B 파이낸싱을 완료했다고 발표했으며, 회사 가치는 미화 10억 달러를 넘어 유니콘이 되었습니다. 그러나 Adept가 공개적으로 자금을 모금할 때 Niki Parmar와 Ashish Vaswani는 Adept를 떠나 자신의 새로운 AI 회사를 설립했습니다. 그러나 이 새로운 회사는 여전히 기밀이므로 회사에 대한 자세한 정보를 얻을 수 없습니다.
또 다른 논문 저자 Noam Shazeer 는 Google의 가장 중요한 초기 직원 중 한 명입니다. 2000년 말 구글에 입사해 2021년 최종 퇴사했다가 'Character.AI'라는 스타트업의 CEO가 됐다.
Noam Shazeer 외에도 Character.AI의 창립자는 Daniel De Freitas이며 두 사람 모두 Google LaMDA 팀 출신입니다. 이전에는 Google에서 대화 프로그램을 지원하는 언어 모델인 LaMDA를 구축했습니다.
올해 3월, Character.AI는 1억 5천만 달러의 자금 조달 완료를 발표했으며, 가치 평가액은 10억 달러에 달합니다. ChatGPT를 소유한 조직인 OpenAI와 경쟁할 수 있는 잠재력을 가진 몇 안 되는 스타트업 중 하나입니다. , 그리고 단 몇 달 만에 유니콘으로 성장한 회사를 16A만 쓰는 경우도 드물다. 해당 애플리케이션인 Character.AI는 인간과 같은 텍스트 응답을 생성하고 상황에 맞는 대화에 참여할 수 있는 신경 언어 모델 챗봇입니다.
Character.AI는 2023년 5월 23일 Apple App Store와 Google Play Store에 출시되었으며 첫 주에 170만 회 이상 다운로드되었습니다. 2023년 5월에 이 서비스에는 c.ai+라는 월 9.99달러의 유료 구독이 추가되었습니다. 이를 통해 사용자는 우선 채팅 액세스, 더 빠른 응답 시간, 새로운 기능에 대한 조기 액세스 등의 혜택을 누릴 수 있습니다.
Aidan N. Gomez은 2019년에 Google을 떠난 후 FOR.ai에서 연구원으로 근무했으며 현재는 Cohere의 공동 창립자이자 CEO입니다.
Cohere는 2019년에 설립된 생성형 AI 스타트업입니다. 핵심 사업에는 NLP 모델 제공과 기업의 인간-컴퓨터 상호 작용 개선 지원이 포함됩니다. 세 명의 창립자는 Ivan Zhang, Nick Frosst, Aidan Gomez이며, 그중 Gomez와 Frosst는 Google Brain 팀의 전 멤버였습니다. 2021년 11월, Google Cloud는 Cohere와 파트너십을 맺을 것이라고 발표했습니다. Google Cloud는 강력한 인프라를 사용하여 Cohere 플랫폼을 지원하고 Cohere는 Cloud의 TPU를 사용하여 제품을 개발 및 배포합니다.
코히어가 최근 시리즈 C 파이낸싱에서 2억 7천만 달러를 받아 시가총액 22억 달러의 유니콘으로 거듭났다는 점은 주목할 만합니다.
Łukasz Kaiser은 2021년에 Google을 떠나 7년 9개월 동안 Google에서 근무했으며 현재 OpenAI의 연구원입니다. Google에서 연구 과학자로 일하는 동안 그는 기계 번역, 구문 분석, 기타 알고리즘 및 생성 작업을 위한 SOTA 신경 모델 설계에 참여했으며 TensorFlow 시스템과 Tensor2Tensor 라이브러리의 공동 저자였습니다.
Jakob Uszkoreit은 2021년 Google을 떠나 13년 동안 Google에서 근무한 후 Inceptive에 공동 창업자로 합류했습니다. Inceptive는 딥러닝을 활용하여 RNA 약물을 설계하는 데 주력하는 AI 제약회사입니다.
Jakob Uszkoreit는 Google에서 근무하면서 Google Assistant의 언어 이해 팀 구성에 참여했으며 초기에는 Google 번역 작업도 수행했습니다.
Illia Polosukhin 은 2017년 Google을 떠나 현재 NEAR.AI(블록체인 기반 기술 회사)의 공동 창립자이자 CTO입니다.
아직 Google에 남아 있는 유일한 사람은 Llion Jones입니다. 올해로 Google에서 근무한 지 9년째입니다.
이제 "Attention Is All You Need" 논문이 출판된 지 6년이 지났습니다. 일부 원작자는 떠나기로 결정했고, 일부는 무슨 일이 있어도 Google에 머물기로 결정했습니다. 트랜스포머의 영향력은 아직도 계속되고 있다.
위 내용은 트랜스포머 6주년 기념: 당시에는 NeurIPS Oral도 획득하지 못했지만 8명의 저자가 여러 AI 유니콘을 설립했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











이 기사에서는 데비안 시스템에서 Apacheweb 서버의 로깅 레벨을 조정하는 방법에 대해 설명합니다. 구성 파일을 수정하면 Apache가 기록한 로그 정보 수준을 제어 할 수 있습니다. 메소드 1 : 구성 파일을 찾으려면 기본 구성 파일을 수정합니다. 구성 파일 : APACHE2.X의 구성 파일은 일반적으로/etc/apache2/디렉토리에 있습니다. 파일 이름은 설치 방법에 따라 apache2.conf 또는 httpd.conf 일 수 있습니다. 구성 파일 편집 : 텍스트 편집기 (예 : Nano)를 사용하여 루트 권한이있는 구성 파일 열기 : sudonano/etc/apache2/apache2.conf

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

Debian에서 Hadoop 로그 관리하면 다음 단계 및 모범 사례를 따라갈 수 있습니다. 로그 집계 로그 집계 : Yarn-site.xml 파일에서 Ture에서 True로 설정 할 수 있도록 설정 : 로그 집계를 활성화하십시오. 로그 보유 정책 구성 : 172800 초 (2 일)와 같이 로그의 유지 시간을 정의하기 위해 yarn.log-aggregation.retain-seconds를 설정하십시오. 로그 저장 경로를 지정하십시오 : Yarn.n을 통해
