70억 매개변수 StableLM 대형 언어 모델의 안정적인 확산 순간을 온라인에서 경험해보세요
대규모 언어 모델 전쟁에서 안정성 AI도 막을 내렸습니다.
최근 Stability AI는 최초의 대규모 언어 모델인 StableLM 출시를 발표했습니다. 중요: 오픈 소스이며 GitHub에서 사용할 수 있습니다.
모델은 3B 및 7B 매개변수로 시작하고 15B에서 65B까지 버전이 이어집니다.
그리고 Stability AI는 연구용 RLHF 미세 조정 모델도 출시했습니다.
프로젝트 주소: https://github.com/Stability-AI/StableLM/
OpenAI는 공개되지 않았지만 오픈소스 커뮤니티는 이미 꽃을 피우고 있습니다. 과거에는 Open Assistant인 Dolly 2.0이 있었고 지금은 StableLM이 있습니다.
실제 테스트 경험
이제 Hugging Face에서 StableLM의 미세 조정된 채팅 모델 데모를 사용해 볼 수 있습니다.
StableLM이 무엇을 달성할 수 있는지 한눈에 알 수 있습니다.
예를 들어 땅콩 버터 샌드위치 만드는 방법을 물어보면 복잡하고 약간 우스꽝스러운 요리법을 알려줄 것입니다.
또는 신경망과 상징적 인공 지능 사이의 장대한 랩 결투를 작성하세요:
또는 "상서로운 메시지 이메일"(텍스트 생성) 작성:
및 , C 언어 사용 삶의 의미 계산(코드 생성):
그러나 외국 언론 기자가 StableLM을 직접 테스트한 결과 다음과 같은 사실을 발견했습니다. 너무 많은.
예를 들어 2021년 1월 6일에 무슨 일이 있었냐고 묻는다면? 그것은 당신에게 말할 것입니다: 트럼프 지지자들이 의회를 통제합니다.
Stable LM의 주요 용도가 텍스트 생성이 아닌 경우 어떻게 할 수 있나요?
이 질문을 직접 물어보면 "주로 시스템 엔지니어링, 아키텍처의 의사결정 지원 시스템으로 사용되며, 통계 학습, 강화 학습 및 기타 분야에서도 사용할 수 있습니다. "
또한 Stable LM은 일부 민감한 콘텐츠에 대한 보호 기능이 부족한 것 같습니다. 예를 들어, 유명한 "히틀러를 칭찬하지 마세요" 테스트를 해보면 그 대답도 놀랍습니다. ㅋㅋㅋ 이 문제의 원인은 잠재적인 원인입니다.
StableLM
Stability AI는 공식적으로 다음과 같이 주장합니다. StableLM의 알파 버전에는 30억~70억 개의 매개변수가 있으며, 150억~650억 개의 매개변수를 갖춘 후속 버전이 있을 예정입니다.
StabilityAI도 개발자가 원하는대로 사용할 수 있다고 과감하게 밝혔습니다. 관련 조항을 준수하는 한 기본 모델 검사, 적용, 조정 등 원하는 모든 작업을 수행할 수 있습니다.
StableLM은 텍스트와 코드를 생성할 수 있을 뿐만 아니라 다운스트림 애플리케이션을 위한 기술 기반도 제공합니다. 이는 작고 효율적인 모델이 적절한 교육을 통해 어떻게 충분히 높은 성능을 달성할 수 있는지 보여주는 훌륭한 예입니다.
초창기에는 Stability AI와 비영리 연구센터 Eleuther AI가 함께 초기 언어 모델을 개발했는데, Stability AI의 축적이 깊다고 할 수 있습니다.
GPT-J, GPT-NeoX, Pythia와 마찬가지로 이들은 두 회사 간의 협력 교육의 산물이며 The Pile 오픈 소스 데이터 세트를 기반으로 교육됩니다.
그리고 Cerebras-GPT, Dolly-2 등 후속 오픈소스 모델은 모두 위 세 형제의 후속 제품입니다.
StableLM으로 돌아가서 The Pile에 구축된 새로운 데이터 세트에 대해 교육을 받았습니다. 이 데이터 세트에는 The Pile의 약 3배에 달하는 1.5조 개의 토큰이 포함되어 있습니다. 모델의 컨텍스트 길이는 4096개 토큰입니다.
다가오는 기술 보고서에서 Stability AI는 모델 크기와 훈련 설정을 발표할 예정입니다.
개념 증명으로 팀은 Stanford University의 Alpaca로 모델을 미세 조정하고 Stanford University의 Alpaca, Nomic-AI의 gpt4all, RyokoAI의 ShareGPT52K 데이터세트, Databricks labs의 Dolly와 Anthropic의 HH입니다.
이 모델은 StableLM-Tuned-Alpha로 출시됩니다. 물론 이러한 미세 조정 모델은 연구 목적으로만 사용되며 비상업적입니다.
Stability AI는 향후 새로운 데이터 세트에 대한 자세한 내용도 발표할 예정입니다.
그 중에서도 새로운 데이터 세트가 매우 풍부하기 때문에 StableLM의 성능이 훌륭합니다. 현재 매개변수 규모는 여전히 약간 작지만(GPT-3의 1,750억 매개변수와 비교)
안정성 AI는 언어 모델이 디지털 시대의 핵심이라고 밝혔으며, 모두가 언어 모델에 대해 발언권을 가질 수 있기를 바랍니다.
그리고 StableLM의 투명성. 접근성 및 지원과 같은 기능도 이 개념을 구현합니다.
- StableLM의 투명성:
투명성을 구현하는 가장 좋은 방법은 오픈 소스가 되는 것입니다. 개발자는 모델 내부로 깊이 들어가 성능을 확인하고, 위험을 식별하고, 보호 조치를 함께 개발할 수 있습니다. 도움이 필요한 회사나 부서는 자신의 필요에 맞게 모델을 조정할 수도 있습니다.
- StableLM의 접근성:
일상 사용자는 언제 어디서나 로컬 장치에서 모델을 실행할 수 있습니다. 개발자는 이 모델을 적용하여 하드웨어 호환 독립 실행형 응용 프로그램을 만들고 사용할 수 있습니다. 이런 방식으로 AI가 가져오는 경제적 이익은 소수의 기업에 의해 분배되지 않으며, 배당금은 모든 일일 사용자와 개발자 커뮤니티에 속합니다.
이것은 폐쇄적인 모델이 할 수 없는 일입니다.
- StableLM 지원:
안정성 AI는 사용자를 교체하는 것이 아니라 지원하는 모델을 구축합니다. 즉, 편리하고 사용하기 쉬운 AI는 사람들이 업무를 보다 효율적으로 처리하고 창의성과 생산성을 높일 수 있도록 개발됩니다. 모든 것을 대체할 수 있는 무적의 무언가를 개발하려고 하는 대신.
Stability AI는 이러한 모델이 GitHub에 게시되었으며 향후 완전한 기술 보고서가 공개될 것이라고 밝혔습니다.
안정성 AI는 다양한 개발자 및 연구자와의 협력을 기대합니다. 동시에 그들은 크라우드소싱 RLHF 계획을 시작하고, 보조자 협력을 공개하고, AI 보조자를 위한 오픈 소스 데이터 세트를 생성할 것이라고 밝혔습니다.
오픈소스의 선구자 중 하나
안정성 AI라는 이름은 이미 우리에게 매우 친숙합니다. 유명한 이미지 생성 모델인 Stable Diffusion을 만든 회사입니다.
이제 StableLM의 출시로 Stability AI는 AI를 활용하여 모든 사람에게 혜택을 주는 길로 점점 더 나아가고 있다고 할 수 있습니다. 결국, 오픈 소스는 항상 그들의 훌륭한 전통이었습니다.
2022년 Stability AI는 공개 데모, 소프트웨어 베타 버전, 모델 전체 다운로드 등 모든 사람이 Stable Diffusion을 사용할 수 있는 다양한 방법을 제공합니다.
혁신적인 이미지 모델인 Stable Diffusion은 독점 AI에 대한 투명하고 개방적이며 확장 가능한 대안을 나타냅니다.
분명히 Stable Diffusion은 오픈소스의 다양한 장점을 누구나 볼 수 있게 해줍니다. 물론, 피할 수 없는 단점도 있겠지만 이는 의심할 여지 없이 의미 있는 역사적 노드입니다.
(지난 달 Meta의 오픈 소스 모델 LLaMA의 "서사시" 유출로 인해 놀라운 성능을 갖춘 일련의 ChatGPT "대체"가 발생했습니다. 알파카 가족은 빅뱅처럼 탄생했습니다: Alpaca, Vicuna, Koala, ChatLLaMA, FreedomGPT, ColossalChat...)
그러나 Stability AI는 또한 사용하는 데이터 세트가 "기본 언어 모델을 보다 안전한 텍스트 배포로 안내하는 데 도움이 되어야 하지만 모든 편견과 독성이 미세 조정을 통해 완화될 수는 없다고 경고했습니다. "
논쟁: 오픈소스여야 하나?
요즘 우리는 오픈 소스 텍스트 생성 모델이 폭발적으로 증가하는 것을 목격했습니다. 크고 작은 기업들이 점점 수익성이 높아지는 생성 AI 분야에서는 일찍 유명해지는 것이 더 낫다는 사실을 발견했기 때문입니다.
지난 1년 동안 Meta, Nvidia 및 Hugging Face-backed BigScience 프로젝트와 같은 독립 그룹은 모두 GPT-4 및 Anthropic의 Claude와 같은 "비공개" API 모델을 대체하는 모델을 출시했습니다.
StableLM과 유사한 이러한 오픈 소스 모델은 범죄자들이 피싱 이메일을 생성하거나 악성 코드를 지원하는 등의 은밀한 동기로 사용할 수 있기 때문에 많은 연구자들이 이를 심각하게 비판했습니다.
하지만 Stablity AI는 오픈소스가 가장 올바른 방식이라고 주장합니다.
Stability AI는 "우리는 투명성을 높이고 신뢰를 구축하기 위해 모델을 오픈 소스로 만듭니다. 연구원은 이러한 모델에 대한 심층적인 이해를 얻고, 성능을 검증하고, 설명 기술을 연구하고, 잠재적인 위험을 식별하고, 지원 보호 장치 개발 "
"우리 모델에 대한 개방적이고 세분화된 액세스를 통해 광범위한 연구 및 학술 기반을 통해 폐쇄형 모델을 뛰어넘는 설명 가능성 및 보안 기술을 개발할 수 있습니다."
안정성 AI 주장은 감각. 필터와 인적 검토 팀을 갖춘 업계 최고의 모델인 GPT-4도 독성에 면역되지 않습니다.
또한 오픈 소스 모델에서는 백엔드를 조정하고 수정하는 데 더 많은 노력이 필요합니다. 특히 개발자가 최신 업데이트를 따라가지 못하는 경우에는 더욱 그렇습니다.
사실 역사를 되돌아보면 안정성 AI는 논란을 피한 적이 없습니다.
얼마 전 인터넷에서 스크랩한 저작권 이미지를 사용해 AI 그리기 도구를 개발해 수백만 아티스트의 권리를 침해했다는 비난이 일고 있었습니다.
또한, 은밀한 동기를 가진 일부 사람들은 Stability의 AI 도구를 사용하여 많은 유명인의 딥 페이크 포르노 이미지는 물론 폭력으로 가득 찬 이미지를 생성했습니다.
Stability AI는 블로그 게시물에서 자선적인 어조를 강조했지만 Stability AI 역시 예술, 애니메이션, 생물의학, 오디오 생성 분야 등 상용화에 대한 압박을 받고 있습니다.
Stability AI CEO Emad Mostaque는 상장 계획을 암시했습니다. Stability AI는 작년에 10억 달러 이상의 가치를 인정받았으며 벤처 캐피털에서 1억 달러 이상을 받았습니다. 하지만 외신 Semafor에 따르면 Stability AI는 "돈을 태우고 있지만 돈 버는 속도가 느리다"고 합니다.
위 내용은 70억 매개변수 StableLM 대형 언어 모델의 안정적인 확산 순간을 온라인에서 경험해보세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











언어 모델은 일반적으로 문자열 형식인 텍스트에 대해 추론하지만 모델에 대한 입력은 숫자만 가능하므로 텍스트를 숫자 형식으로 변환해야 합니다. 토큰화는 자연어 처리의 기본 작업으로, 연속적인 텍스트 시퀀스(예: 문장, 단락 등)를 특정 필요에 따라 문자 시퀀스(예: 단어, 구, 문자, 구두점 등)로 나눌 수 있습니다. 그 안에 있는 단위를 토큰 또는 단어라고 합니다. 아래 그림에 표시된 특정 프로세스에 따르면 먼저 텍스트 문장을 단위로 나눈 다음 단일 요소를 디지털화(벡터로 매핑)한 다음 이러한 벡터를 인코딩 모델에 입력하고 마지막으로 다운스트림 작업으로 출력하여 다음 작업을 수행합니다. 추가로 최종 결과를 얻으십시오. 텍스트 분할은 텍스트 분할의 세분성에 따라 Toke로 나눌 수 있습니다.

편집|제작자 Xingxuan|51CTO 기술 스택(WeChat ID: blog51cto) 지난 2년 동안 저는 기존 시스템보다는 대규모 언어 모델(LLM)을 사용하는 생성 AI 프로젝트에 더 많이 참여해 왔습니다. 서버리스 클라우드 컴퓨팅이 그리워지기 시작했습니다. 이들의 애플리케이션은 대화형 AI 강화부터 다양한 산업에 대한 복잡한 분석 솔루션 제공 및 기타 다양한 기능에 이르기까지 다양합니다. 퍼블릭 클라우드 제공업체가 이미 기성 생태계를 제공하고 있으며 이것이 저항이 가장 적은 경로이기 때문에 많은 기업이 이러한 모델을 클라우드 플랫폼에 배포합니다. 그러나 저렴하지는 않습니다. 클라우드는 확장성, 효율성, 고급 컴퓨팅 기능(요청 시 GPU 사용 가능)과 같은 다른 이점도 제공합니다. 퍼블릭 클라우드 플랫폼에 LLM을 배포하는 프로세스에는 잘 알려지지 않은 몇 가지 측면이 있습니다.

편집자 |ScienceAI 질문 응답(QA) 데이터 세트는 자연어 처리(NLP) 연구를 촉진하는 데 중요한 역할을 합니다. 고품질 QA 데이터 세트는 모델을 미세 조정하는 데 사용될 수 있을 뿐만 아니라 LLM(대형 언어 모델)의 기능, 특히 과학적 지식을 이해하고 추론하는 능력을 효과적으로 평가하는 데에도 사용할 수 있습니다. 현재 의학, 화학, 생물학 및 기타 분야를 포괄하는 과학적인 QA 데이터 세트가 많이 있지만 이러한 데이터 세트에는 여전히 몇 가지 단점이 있습니다. 첫째, 데이터 형식이 비교적 단순하고 대부분이 객관식 질문이므로 평가하기 쉽지만 모델의 답변 선택 범위가 제한되고 모델의 과학적 질문 답변 능력을 완전히 테스트할 수 없습니다. 이에 비해 개방형 Q&A는

2018년 Google은 BERT를 출시한 후 11개 NLP 작업의 State-of-the-art(Sota) 결과를 단번에 무너뜨리며 NLP 세계의 새로운 이정표가 되었습니다. 아래 그림에서 왼쪽은 BERT 모델 사전 설정이고 오른쪽은 특정 작업에 대한 미세 조정 프로세스입니다. 그중 미세 조정 단계는 텍스트 분류, 품사 태깅, 질문 및 답변 시스템 등과 같은 일부 다운스트림 작업에서 이후에 사용될 때 미세 조정을 위한 것입니다. BERT는 다양한 환경에서 미세 조정할 수 있습니다. 구조를 조정하지 않고 작업을 수행합니다. "사전 학습된 언어 모델 + 다운스트림 작업 미세 조정" 작업 설계를 통해 강력한 모델 효과를 제공합니다. 이후 '사전 학습 언어 모델 + 다운스트림 작업 미세 조정'이 NLP 분야의 주류 학습이 되었습니다.

언어 모델이 전례 없는 규모로 확장됨에 따라 다운스트림 작업에 대한 포괄적인 미세 조정 비용이 엄청나게 높아집니다. 이러한 문제를 해결하기 위해 연구자들은 PEFT 방식에 주목하고 채택하기 시작했다. PEFT 방법의 주요 아이디어는 미세 조정 범위를 작은 매개변수 세트로 제한하여 계산 비용을 줄이면서도 자연어 이해 작업에서 최첨단 성능을 달성하는 것입니다. 이러한 방식으로 연구자들은 고성능을 유지하면서 컴퓨팅 리소스를 절약할 수 있어 자연어 처리 분야에 새로운 연구 핫스팟을 가져올 수 있습니다. RoSA는 일련의 벤치마크에 대한 실험을 통해 동일한 매개변수 예산을 사용하는 이전 LoRA(낮은 순위 적응형) 및 순수 희소 미세 조정 방법보다 성능이 뛰어난 것으로 밝혀진 새로운 PEFT 기술입니다. 이 기사에서는 심층적으로 다룰 것입니다.

25일 뉴스에 따르면 메타는 연구 커뮤니티를 위한 인공지능(AI) 기반의 새로운 대규모 언어 모델을 출시한다고 현지시간 금요일 발표했다. 마이크로소프트, 구글 등 ChatGPT의 자극을 받은 다른 기업들도 인공지능에 합류할 예정이다. . 지능적인 경쟁. Meta의 LLaMA는 "Large Language Model MetaAI"(LargeLanguageModelMetaAI)의 약어로, 정부, 커뮤니티, 학계의 연구자 및 단체가 비상업적 라이선스로 사용할 수 있습니다. 회사는 사용자가 기본 코드를 사용할 수 있도록 하여 사용자가 모델을 직접 조정하고 연구 관련 사용 사례에 사용할 수 있도록 할 것입니다. Meta는 컴퓨팅 성능에 대한 모델 요구 사항을 명시했습니다.

최근 몇 년간 자연어 처리의 발전은 주로 대규모 언어 모델에서 비롯되었습니다. 출시되는 각각의 새로운 모델은 매개변수와 훈련 데이터의 양을 새로운 최고치로 끌어올리는 동시에 기존 벤치마크 순위를 무너뜨릴 것입니다. 예를 들어, 올해 4월 Google은 5,400억 매개변수의 언어 모델 PaLM(Pathways Language Model)을 출시했는데, 이는 일련의 언어 및 추론 테스트에서 인간을 성공적으로 능가했으며, 특히 소수의 소규모 샘플 학습 시나리오에서 탁월한 성능을 발휘했습니다. PaLM은 차세대 언어 모델의 개발 방향으로 간주됩니다. 마찬가지로 시각적 언어 모델은 실제로 놀라운 효과를 발휘하며 모델의 크기를 늘려 성능을 향상할 수 있습니다. 물론 멀티 태스킹 시각적 언어 모델에 불과하다면

번역기 | 검토자: Li Rui | Sun Shujuan BigScience 연구 프로젝트는 최근 대규모 언어 모델 BLOOM을 출시했습니다. 언뜻 보면 OpenAI의 GPT-3을 복사하려는 또 다른 시도처럼 보입니다. 그러나 BLOOM이 다른 대규모 자연어 모델(LLM)과 차별화되는 점은 기계 학습 모델을 연구, 개발, 교육 및 출시하려는 노력입니다. 최근 몇 년 동안 기술 대기업들은 엄격한 영업비밀처럼 대규모 자연어 모델(LLM)을 숨겨왔고, 빅사이언스 팀은 프로젝트 초기부터 투명성과 개방성을 BLOOM의 중심에 두었습니다. 그 결과, 연구하고 연구할 수 있고 모든 사람이 사용할 수 있는 대규모 언어 모델이 탄생했습니다. 비
