AI 검색엔진이 또 진화한다? !
이 AI에 주제를 지정하면 몇 분 안에 논문 리뷰를 제공하고 논문 자체에 대한 인용도 제공합니다.
또는 과학 명사를 입력하면 AI가 해당 명사 전용 위키피디아를 빠르게 생성할 수 있습니다.
이 AI는 Galactica(약어: GAL)라고 하며 AI를 과학적 생산성으로 변환하는 최신 오픈 소스 대규모 과학 언어 모델입니다.
그리고 학문, 수학, 물리학, 컴퓨터의 "대통일"도 달성합니다. 이 AI를 사용할 수 있습니다.
모델이 공개되자마자 네티즌들 사이에서 뜨거운 논의를 불러일으켰고, 현재 관련 트윗 조회수는 약 15만 회에 달하며, 누적 좋아요 수, 리트윗 수, 인용 수는 5,000회를 넘어섰습니다.
전 페이스북 기술담당자가 나서서 지원하기도 했습니다.
일부 네티즌들은 직접 경험해 보았는데, 자신들이 쓴 문헌 리뷰에 "꽤 괜찮아 보인다"며 "
다음 단계에서 새로운 아이디어가 나올 수 있을까?"라고 묻기도 했습니다.
사실 문헌 리뷰 작성과 Wikipedia 작성은 GAL 기능의 일부일 뿐입니다. 이 외에도 전문적인 질문에 답하고, 과학 코드를 작성하고, 분자와 단백질에 주석을 달 수 있습니다...
한 번 살펴보겠습니다. 구체적인 효과를 살펴보겠습니다~
과학적인 생산성에 있어서는 확실히 논문 검색과 뗄래야 뗄 수 없는 문제입니다. GAL이 이 문제를 해결하는 데 도움을 줄 수 있습니다.
기계 학습, 수학, 컴퓨터 과학, 생물학, 물리학의 5가지 과학 분야를 다루고 있습니다.
주제를 선택한 후 왼쪽 상자에 찾고 있는 논문 주제를 입력하면 오른쪽에 있는 GAL이 읽기에 가장 적합한 논문을 추천해 드립니다.
GAL에는 논문 추천 외에도 강의 노트 생성이라는 보다 실용적인 기능도 있습니다.
예를 들어 밀도 함수 이론(DFT)에 대한 사전 과정을 하고 싶지만 강의 노트를 작성하기에는 너무 게으른 경우 GAL만 하면 몇 분 안에 완료할 수 있습니다(수동 개 헤드).
GAL은 분자와 단백질에 주석을 달 때도 사용할 수 있습니다. 다음은 GAL에서 생성된 RDKit(기계 학습을 위한 분자 설명자를 생성할 수 있음)의 작동 매뉴얼입니다.
GAL도 세세하게 챙겨줬어요!
예를 들어 복잡한 수학 공식과 코드를 이해할 수 없는 경우 GAL에 맡기면 GAL이 직접 모국어로 번역해 드립니다.
그뿐만 아니라 수학 공식과 코드 간의 변환, 또는 서로 다른 유형의 코드 간의 변환도 실현할 수 있습니다.
더 중요한 것은 단순화된 수식과 오류 검사 기능도 있다는 것입니다.
어떻게 하나요?
GAL은 이렇게 복잡한 기능을 수행할 수 있으므로 훈련 데이터 세트를 언급해야 합니다.
공식 뉴스에 따르면 GAL은 NatureBook이라는 새로운 고품질 과학 데이터 세트에 대해 교육을 받았습니다. 이를 통해 모델은 과학 용어, 수학 및 화학 공식, 소스 코드를 사용할 수 있습니다.
4,800만 개 이상의 논문, 교과서, 강의 노트는 물론 수백만 개의 화합물과 단백질, 과학 웹사이트, 백과사전 등이 포함되어 있습니다.
또한 논문을 찾고 인용을 정규화하기 위해 GAL의 데이터 세트에는 3억 6천만 개가 넘는 문맥 인용과 다양한 소스에서 정규화된 5천만 개가 넘는 고유 참조가 포함되어 있습니다.
이렇게 거대한 데이터 세트를 갖게 되면 두 가지 문제에 직면하게 됩니다.
첫 번째 질문은 이러한 고품질 데이터 세트를 관리하는 방법입니다. 이를 달성하기 위해 GAL은 두 가지 단계를 사용합니다.
모든 데이터는 다양한 소스의 데이터 간의 장벽을 허물기 위해 공통 마크업 형식으로 처리됩니다.
사전 훈련에는 특정 작업에 대한 데이터 세트가 포함되어 있어 특정 작업을 처리할 때 더욱 전문적일 수 있습니다.
또 다른 질문은: 인터페이스 상호 작용을 디자인하는 방법은 무엇입니까?
우선 위에서 언급했듯이 GAL은 다양한 유형의 작업을 지원할 수 있습니다.
따라서 인터페이스 상호 작용을 설계할 때 다양한 작업이 분류됩니다. 다양한 분류는 다양한 유형의 데이터를 지원합니다.
GAL은 고도로 관리되는 고품질 과학 데이터 세트를 보유하고 있으므로 다른 모델과 비교하면 어떻습니까?
데이터를 직접 업로드해보세요!
추론 측면에서는 GAL의 장점이 두드러집니다. 수학 MMLU(대규모 다중 작업 언어 이해)에서는 Chinchilla보다 성능이 뛰어나며 수학 측면에서도 Palm 540B 및 GPT-3보다 뛰어납니다. 175B.
GAL은 일반 데이터 세트에 대한 교육을 받지 않았지만 BIG-bench에서의 성능은 BLOOM 및 OPT-175B보다 여전히 좋습니다.
읽고 가려움증이 느껴지신다면 우선 멈춰주세요!
포털: https://galactica.org/
참조 링크: [1]https://twitter.com/paperswithcode/status/1592546933679476736[2]https://github.com/paperswithcode/galai[3 ] https://galactica.org/static/paper.pdf
위 내용은 AI 과학 언어의 큰 모델은 매우 인기가 높습니다. 모든 종류의 수학적, 생물학적 컴퓨터를 사용할 수 있으며 코드를 작성하고 리뷰를 작성할 수도 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!