Yann LeCun은 거대 모델이 인간 지능에 접근한다는 목표를 달성할 수 없다고 말합니다.
"언어는 모든 인간 지식의 작은 부분만을 담고 있습니다. 대부분의 인간 지식과 모든 동물 지식은 비언어적입니다. 따라서 대규모 언어 모델은 인간 수준의 지능에 접근할 수 없습니다." 이것은 Turing Award 수상자 Yann LeCun입니다. 인공지능의 전망.
어제 뉴욕대학교 박사후 연구원 Jacob Browning과 공동 집필한 새 논문이 NOEMA에 게재되어 논의가 촉발되었습니다.
기사에서 저자는 현재 인기 있는 대규모 언어 모델에 대해 논의하고 여기에는 분명한 한계가 있다고 믿습니다. AI 분야의 향후 노력 방향은 현실 세계의 다른 수준의 지식을 이해하는 데 기계에게 우선순위를 부여하는 것일 수 있습니다.
그들이 무슨 말을 하는지 살펴보겠습니다.
얼마 전, 전 구글 AI 윤리 연구원인 블레이크 르모인(Blake Lemoine)은 AI 챗봇 LaMDA가 인간만큼 의식이 있다고 주장해 현장에서 큰 소란을 일으켰습니다.
LaMDA는 실제로 주어진 텍스트에 대해 다음으로 가능한 단어를 예측하도록 설계된 LLM(대형 언어 모델)입니다. 많은 대화가 어느 정도 예측 가능하므로 이러한 시스템은 대화를 효율적으로 유지하는 방법을 추론할 수 있습니다. LaMDA는 이런 종류의 작업을 매우 훌륭하게 수행하므로 Blake Lemoine은 AI가 "의식"을 가지고 있는지 궁금해하기 시작했습니다.
이 분야의 연구자들은 이 문제에 대해 서로 다른 견해를 가지고 있습니다. 어떤 사람들은 기계가 의식이 있다는 생각을 비웃고 어떤 사람들은 LaMDA 모델이 그렇지 않을 수도 있다고 생각하지만 다음 모델은 의식이 있을 수 있습니다. 다른 사람들은 기계가 인간을 “속이는” 것이 어렵지 않다고 지적합니다.
응답의 다양성은 더 깊은 문제를 강조합니다. LLM이 더욱 일반화되고 강력해짐에 따라 이러한 모델에 대한 우리의 견해에 동의하는 것이 점점 더 어려워지는 것 같습니다. 수년에 걸쳐 이러한 시스템은 많은 "상식" 언어 추론 벤치마크를 능가했지만 테스트할 때 이러한 시스템은 상식에 거의 부합하지 않는 것으로 보이며 심지어 무의미하고 비논리적이고 위험한 제안을 하는 경향이 있습니다. 이는 다음과 같은 골치 아픈 질문을 제기합니다. 어떻게 이러한 시스템이 그렇게 지능적이면서도 제한된 기능을 가질 수 있습니까?
사실 가장 근본적인 문제는 인공지능이 아니라 언어의 한계입니다. 의식과 언어 사이의 연결에 대한 가정을 포기하면 이러한 시스템은 세상에 대한 피상적인 이해만 가질 수밖에 없으며 인간의 "포괄적 사고"에는 결코 접근할 수 없습니다. 간단히 말해서, 이러한 모델은 이미 지구상에서 가장 인상적인 AI 시스템 중 일부이지만 이러한 AI 시스템은 결코 우리 인간만큼 지능적이지는 않습니다.
19세기와 20세기의 대부분 동안 철학과 과학의 주요 주제는 지식은 단지 언어일 뿐이라는 것이었습니다. 즉, 한 가지를 이해하려면 문장의 내용을 이해하고 해당 문장을 다른 문장과 연관시키기만 하면 됩니다. 이 논리에 따르면 이상적인 언어 형식은 엄격한 추론 규칙으로 연결된 임의의 기호로 구성된 논리-수학적 형식이 될 것입니다.
철학자 비트겐슈타인은 "진정한 명제의 총체는 자연과학이다"라고 말했습니다. 이 입장은 20세기에 정립되었으며 이후 많은 논란을 불러일으켰습니다.
일부 고등 교육을 받은 지식인들은 여전히 다음과 같은 견해를 갖고 있습니다. "우리가 알 수 있는 모든 것은 백과사전에 포함될 수 있으므로 백과사전의 모든 내용을 읽는 것만으로도 모든 것을 포괄적으로 이해할 수 있습니다. 이러한 관점도 이해에 영감을 줍니다." 기본 패러다임으로 기호 처리를 포함하는 Symbolic AI에 대한 초기 작업의 대부분. 이들 연구자에게 AI 지식은 손으로 만든 논리로 서로 연결된 실제 문장의 대규모 데이터베이스로 구성된다. AI 시스템의 목표는 적시에 올바른 문장을 출력하는 것, 즉 기호를 처리하는 것이다. 적절한 방법.
이 개념은 튜링 테스트의 기초입니다. 기계가 말해야 할 모든 것을 "말한다면" 이는 올바른 문장과 이를 언제 사용해야 하는지 알고 있기 때문에 자신이 말하는 내용을 안다는 의미입니다. 인공지능 지식.
그러나 이 견해는 기계가 사물에 대해 말할 수 있다고 해서 그것이 말하는 내용을 이해한다는 의미는 아니라는 반론이 있습니다. 이는 언어가 지식을 매우 구체적이고 제한적으로 표현하기 때문입니다. 프로그래밍 언어, 기호 논리 언어, 일상 언어 등 모든 언어는 특정 유형의 표현 모드를 지원하며 매우 높은 수준의 추상화에서 개별 객체와 속성 및 이들 간의 관계를 표현하는 데 적합합니다.
그러나 모든 표현 방식은 사물에 대한 정보의 압축을 포함하지만 압축에서 남는 것과 생략되는 것이 다릅니다. 언어의 표현 방식은 불규칙한 형태, 사물의 움직임, 복잡한 메커니즘의 기능, 그림의 세심한 붓질 등을 묘사하는 구체적인 정보를 놓칠 수 있습니다. 일부 비언어적 표현 체계는 상징적 지식, 분산 지식 등을 포함하여 이 정보를 이해하기 쉬운 방식으로 표현할 수 있습니다.
언어의 한계
언어 표현 모델의 단점을 이해하려면 먼저 언어가 얼마나 많은 정보를 전달하는지 깨달아야 합니다. 실제로 언어는 정보를 전송하는 매우 낮은 대역폭의 방법입니다. 특히 고립된 단어나 문장이 문맥 없이 거의 정보를 전달하지 않는 경우에는 더욱 그렇습니다. 게다가 동음이의어와 대명사의 수가 많아 문장의 의미가 매우 모호해지는 경우가 많습니다. Chomsky와 같은 연구자들은 다음과 같이 지적했습니다. 언어는 명확하고 모호하지 않은 의사소통 도구가 아닙니다.
하지만 인간은 비언어적 언어를 이해하는 시스템을 공유하기 때문에 완벽한 의사소통 도구가 필요하지 않습니다. 문장에 대한 우리의 이해는 종종 문장이 놓인 맥락에 대한 깊은 이해에 달려 있어 언어적 표현의 의미를 추론할 수 있습니다. 우리는 종종 축구 경기와 같이 당면한 문제에 대해 직접적으로 이야기합니다. 또는 웨이터에게 음식을 주문하는 등의 상황에서 사회적 역할에 대해 의사소통합니다.
텍스트를 읽는 경우에도 마찬가지입니다. 이는 AI의 상식에 대한 접근을 약화시키는 작업이지만 어린이에게 상황에 구애받지 않는 독해 기술을 가르치는 인기 있는 방법입니다. 이 접근 방식은 텍스트를 이해하기 위해 일반적인 독해 전략을 사용하는 데 중점을 둡니다. 그러나 연구에 따르면 어린이가 해당 주제에 대해 가지고 있는 배경 지식의 양이 실제로 이해력의 핵심 요소인 것으로 나타났습니다. 문장이나 단락이 올바른지 여부를 이해하는 것은 주제에 대한 기본적인 이해에 달려 있습니다.
"이러한 시스템은 피상적인 이해에 갇혀 있으며 결코 인간 사고의 전체 범위에 근접하지 못할 것이 분명합니다."
단어와 문장에 내재된 맥락적 특성이 LLM 작업의 핵심입니다. 신경망은 일반적으로 지식을 노하우로 표현합니다. 즉, 상황에 매우 민감한 패턴을 파악하고 입력을 정교한 방식으로 처리하는 데 필요하지만 제한된 경우에만 적합한 규칙성(구체적 및 추상적)을 요약하는 능숙한 능력입니다. 작업.
LLM에서는 기존 텍스트의 여러 수준에서 패턴을 식별하는 시스템에 관한 것이며, 단어가 단락 내에서 어떻게 연결되는지, 문장이 함께 구성되는 더 큰 단락 내에서 어떻게 연결되는지 확인하는 것입니다. 결과적으로 모델의 언어 이해는 필연적으로 상황에 민감하게 됩니다. 각 단어는 사전적 의미가 아니라 다양한 문장에서의 역할에 따라 이해됩니다. "기화기", "메뉴", "튜닝" 또는 "전자 장치"와 같은 많은 단어가 거의 특정 분야에서만 사용되므로 이러한 단어 중 하나가 포함된 고립된 문장이라도 문맥에서 벗어날 가능성이 높습니다.
간단히 말하면, LLM은 각 문장의 배경 지식을 이해하고, 주변 단어와 문장을 살펴보고 무슨 일이 일어나고 있는지 정리하도록 훈련되었습니다. 이를 통해 다양한 문장이나 구문을 입력으로 사용하고 대화를 계속하거나 기사의 나머지 부분을 작성할 수 있는 합리적인(완벽하지는 않지만) 방법을 생각해 낼 수 있는 무한한 가능성이 제공됩니다. 일상적인 의사소통에 사용하기 위해 사람이 작성한 단락을 학습한 시스템은 고품질 대화를 수행하는 데 필요한 일반적인 이해를 갖추고 있어야 합니다.
얕은 이해
어떤 사람들은 이 맥락에서 "이해"라는 단어를 사용하거나 LLM을 "지능"이라고 부르는 것을 꺼려합니다. 의미론적 이해가 아직 누구에게도 설득력이 있다고 말할 수는 없습니다. 비평가들은 이러한 시스템이 일종의 모방이라고 비난하며, 이는 정당한 일입니다. 이는 LLM의 언어 이해가 인상적이기는 하지만 피상적이기 때문입니다. 이 피상적인 깨달음은 익숙하게 느껴집니다. 교실은 자신이 무슨 말을 하는지 전혀 모르는 "전문 용어를 말하는" 학생들로 가득 차 있습니다. 사실상 교수나 읽고 있는 텍스트를 모방하는 것입니다. 그것은 단지 삶의 일부일뿐입니다. 우리는 특히 언어를 통해 얻은 지식의 측면에서 우리가 알고 있는 내용이 불분명한 경우가 많습니다.
LLM은 모든 것에 대한 이러한 피상적인 이해를 얻습니다. GPT-3와 같은 시스템은 문장의 일부를 가리거나 단락의 다음 단어를 예측하여 기계가 공백을 메울 가능성이 가장 높은 단어를 추측하고 잘못된 추측을 수정하도록 훈련됩니다. 시스템은 결국 가장 가능성이 높은 단어를 추측하는 데 능숙해지며 효과적인 예측 시스템이 됩니다.
이것은 실제적인 이해를 가져다 줍니다. 어떤 질문이나 퍼즐에는 일반적으로 몇 가지 정답이 있지만 잘못된 답은 무한히 많습니다. 이를 통해 시스템은 이러한 유형의 질문에 대한 정답을 정기적으로 예측하기 위해 농담 해석, 단어 문제 해결 또는 논리 퍼즐 해결과 같은 언어 관련 기술을 배우게 됩니다.
이러한 기술과 관련 지식을 통해 기계는 복잡한 일이 어떻게 작동하는지 설명하고, 어려운 개념을 단순화하고, 이야기를 다시 쓰고 다시 말하며, 기타 다양한 언어 관련 능력을 습득할 수 있습니다. Symbolic AI가 주장하는 것처럼, 기계는 논리적 규칙으로 연결된 방대한 문장 데이터베이스 대신 지식을 이전 줄에서 합리적인 다음 문장을 찾는 데 사용되는 문맥 하이라이트로 나타냅니다.
“모든 지식이 언어적이라는 생각을 버리면 우리 지식 중 얼마나 비언어적인지 깨닫게 됩니다.”
그러나 개념을 언어로 설명하는 능력과 실제로 사용하는 능력은 다릅니다. 그것. 시스템은 실제로는 수행할 수 없는 나눗셈을 수행하는 방법을 설명할 수 있습니다. 또는 무엇이 일치하지 않는지 설명하면서도 즐겁게 설명을 계속할 수 있습니다. 상황별 지식은 언어 지식을 말로 표현하는 능력이라는 한 가지 형태에 내재되어 있지만, 공감하거나 어려운 문제를 민감하게 다루는 것과 같은 일을 수행하는 방법에 대한 기술로는 내재되어 있지 않습니다.
후자의 전문 지식은 언어 사용자에게 필수적이지만 언어 기술을 숙달하는 데 도움이 되지는 않습니다. 언어 구성 요소가 기본이 아닙니다. 이는 강의나 책에서 배운 개념을 포함하여 많은 개념에 적용됩니다. 과학 수업에는 강의 구성 요소가 있지만 학생의 점수는 주로 실험실에서의 작업을 기반으로 합니다. 특히 인문학 분야를 제외하면 무언가에 대해 이야기할 수 있다는 것은 일을 진행하는 데 필요한 기본 기술만큼 유용하거나 중요하지 않은 경우가 많습니다.
더 깊이 파고들면 이러한 시스템이 실제로 얼마나 얕은지 쉽게 알 수 있습니다. 주의 지속 시간과 기억은 대략 한 문단과 같습니다. 우리는 마지막 댓글 한두 개에만 집중하고 다음 답변을 고민하는 경향이 있기 때문에 대화를 하다 보면 이 점을 놓치기 쉽습니다.
그러나 더 복잡한 대화를 위한 노하우(적극적으로 듣고, 이전 의견을 상기하고 다시 방문하는 것, 주의가 산만해지는 것을 피하면서 특정 요점을 강조하기 위해 주제를 고수하는 것 등)에는 모두 기계가 가지고 있는 주의력과 기억력 이상의 것이 필요합니다.
이렇게 하면 아이들이 이해할 수 있는 유형이 더욱 줄어듭니다. 주제를 바꾸거나 언어를 바꾸거나 몇 분마다 이상하게 행동하여 아이들을 속이기 쉽습니다. 너무 멀리 물러나면 시스템이 처음부터 다시 시작되고, 새로운 의견을 이전 댓글로 묶고, 채팅 언어를 전환하거나, 귀하가 말하는 모든 것을 믿을 것입니다. 일관된 세계관을 개발하는 데 필요한 이해는 기계의 능력을 훨씬 뛰어넘습니다.
언어를 넘어서
모든 지식이 언어적이라는 생각을 버리면 우리 지식의 상당 부분이 비언어적이라는 사실을 깨닫게 됩니다. 책에는 우리가 풀어서 사용할 수 있는 많은 정보가 포함되어 있지만 다른 많은 항목에도 마찬가지입니다. IKEA의 지침은 다이어그램 옆에 캡션을 쓰지도 않으며 AI 연구자들은 네트워크 아키텍처를 파악하기 전에 종종 논문의 다이어그램을 살펴봅니다. 여행자는 텍스트를 탐색하여 지도의 빨간색 또는 녹색 선을 따라 가고 싶은 곳으로 이동할 수 있습니다.
지식은 단순한 아이콘, 차트, 지도 그 이상입니다. 인류는 세상을 탐험하면서 많은 것을 직접적으로 배웠고, 무엇이 중요하고 사람들이 표현할 수 있고 표현할 수 없는지를 보여주었습니다. 물질의 구조와 인간 환경은 많은 정보를 시각적으로 전달합니다. 문 손잡이는 손 높이에 있고 망치 손잡이는 더 부드럽습니다. 동물과 인간의 비언어적 정신 시뮬레이션은 시나리오 계획에 일반적이고 유용하며 인공물을 생성하거나 리버스 엔지니어링하는 데 사용할 수 있습니다.
마찬가지로 사회적 관습과 의례를 모방함으로써 우리는 음식과 약을 준비하는 것부터 스트레스가 많은 시기의 진정에 이르기까지 다양한 기술을 다음 세대에게 가르칠 수 있습니다. 우리의 문화적 지식의 대부분은 상징적이거나 숙련된 실무자에서 견습생에게 전달되는 정확한 동작의 형태입니다. 정보의 이러한 미묘한 패턴은 말로 표현하고 전달하기 어렵지만 다른 사람들은 여전히 이해할 수 있습니다. 이는 또한 신경망이 포착하고 정제하는 데 능숙한 정확한 유형의 상황별 정보이기도 합니다.
"언어로만 훈련된 시스템은 지금부터 우주의 열사병이 끝날 때까지 훈련을 해도 결코 인간의 지능에 근접할 수 없습니다."
언어는 많은 것을 전달할 수 있기 때문에 중요합니다. 작은 형식의 정보, 특히 인쇄와 인터넷의 출현으로 콘텐츠의 재생산과 광범위한 배포가 가능해졌습니다. 그러나 언어로 정보를 압축하는 데는 비용이 들지 않습니다. 밀도가 높은 구절을 해독하려면 많은 노력이 필요합니다. 인문학 수업에는 광범위한 외부 독서가 필요할 수 있으며 수업 시간의 대부분은 어려운 구절을 읽는 데 사용됩니다. 깊은 이해를 구축하는 것은 시간이 많이 걸리고 힘들지만 유익합니다.
이것은 언어로 훈련된 기계가 그렇게 많은 것을 알 수 있으면서도 아무것도 이해하지 못하는 이유를 설명합니다. 기계는 작은 병목 현상을 통해 인간 지식의 작은 부분에 접근하고 있습니다. 하지만 인간 지식의 그 작은 조각은 사랑이든 천체물리학이든 무엇이든 관련될 수 있습니다. 그래서 그것은 거울과 비슷합니다. 깊이의 환상을 주고 거의 모든 것을 반사할 수 있지만 두께는 1cm에 불과합니다. 그 깊이를 탐구하려고 하면 벽에 부딪힐 것입니다.
올바른 일을 하세요
이것이 기계를 더 멍청하게 만드는 것은 아니지만, 기계가 얼마나 똑똑할 수 있는지에는 본질적인 한계가 있다는 것을 보여줍니다. 언어로만 훈련된 시스템은 지금부터 우주가 열사할 때까지 훈련을 하더라도 결코 인간의 지능에 근접하지 못할 것입니다. 이것은 지식 시스템을 구축하는 잘못된 방법입니다. 하지만 표면만 긁어보면 기계가 확실히 인간에게 더 가까워지고 있는 것 같습니다. 그리고 많은 경우 표면만으로도 충분합니다. 우리 중 실제로 Turing Test를 다른 사람들에게 적용하여 그들의 이해 깊이에 대해 적극적으로 질문하고 여러 자리 곱셈 문제를 수행하도록 강요하는 사람은 거의 없습니다. 대부분의 대화는 잡담입니다.
그러나 LLM이 갖고 있는 피상적인 이해와 인간이 세상의 경이로움을 관찰하고, 탐구하고, 그 안에서 실천하고, 문화 및 다른 사람들과 교류함으로써 얻는 깊은 이해를 혼동해서는 안 됩니다. 언어는 세상에 대한 우리의 이해를 확장하는 데 유용한 구성 요소일 수 있지만 언어는 지능을 소진시키지 않습니다. 이는 우리가 까마귀, 문어, 영장류와 같은 많은 종의 행동에서 이해하는 요점입니다.
오히려, 언어가 의미를 갖기 위해서는 깊은 비언어적 이해가 필수 조건입니다. 바로 인간은 세상에 대한 깊은 이해를 가지고 있기 때문에 다른 사람이 말하는 것을 빨리 이해할 수 있습니다. 이러한 더 광범위하고 상황에 맞는 학습 및 지식은 물리적 생물학적 감각의 출현을 뒷받침하는 더 근본적인 고대 지식으로, 생존과 번영을 가능하게 합니다.
이것은 인공지능 연구자들이 인공지능의 상식을 찾아볼 때 더욱 중점을 두는 작업이기도 합니다. LLM은 인지할 수 있는 안정된 신체나 세계가 없습니다. 따라서 그들의 지식은 단어로 시작하고 끝나며, 이러한 상식은 항상 피상적입니다. 목표는 AI 시스템이 단어 자체가 아닌 자신이 말하는 세계에 초점을 맞추는 것입니다. 그러나 LLM은 차이점을 파악하지 못합니다. 이 깊은 이해는 말만으로는 접근할 수 없으며, 이는 잘못된 방향입니다.
다양한 대규모 언어 모델에 대한 인간의 광범위한 경험은 말만으로는 얻을 수 있는 것이 얼마나 적은지 명확하게 보여줍니다.
위 내용은 Yann LeCun은 거대 모델이 인간 지능에 접근한다는 목표를 달성할 수 없다고 말합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











이 사이트는 6월 27일에 Jianying이 ByteDance의 자회사인 FaceMeng Technology에서 개발한 비디오 편집 소프트웨어라고 보도했습니다. 이 소프트웨어는 Douyin 플랫폼을 기반으로 하며 기본적으로 플랫폼 사용자를 위한 짧은 비디오 콘텐츠를 제작합니다. Windows, MacOS 및 기타 운영 체제. Jianying은 멤버십 시스템 업그레이드를 공식 발표하고 지능형 번역, 지능형 하이라이트, 지능형 패키징, 디지털 인간 합성 등 다양한 AI 블랙 기술을 포함하는 새로운 SVIP를 출시했습니다. 가격면에서 SVIP 클리핑 월 요금은 79위안, 연간 요금은 599위안(본 사이트 참고: 월 49.9위안에 해당), 월간 연속 구독료는 월 59위안, 연간 연속 구독료는 59위안입니다. 연간 499위안(월 41.6위안)입니다. 또한, 컷 관계자는 "사용자 경험 향상을 위해 기존 VIP에 가입하신 분들도

검색 강화 생성 및 의미론적 메모리를 AI 코딩 도우미에 통합하여 개발자 생산성, 효율성 및 정확성을 향상시킵니다. EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG에서 번역됨, 저자 JanakiramMSV. 기본 AI 프로그래밍 도우미는 자연스럽게 도움이 되지만, 소프트웨어 언어에 대한 일반적인 이해와 소프트웨어 작성의 가장 일반적인 패턴에 의존하기 때문에 가장 관련성이 높고 정확한 코드 제안을 제공하지 못하는 경우가 많습니다. 이러한 코딩 도우미가 생성한 코드는 자신이 해결해야 할 문제를 해결하는 데 적합하지만 개별 팀의 코딩 표준, 규칙 및 스타일을 따르지 않는 경우가 많습니다. 이로 인해 코드가 애플리케이션에 승인되기 위해 수정되거나 개선되어야 하는 제안이 나타나는 경우가 많습니다.

LLM(대형 언어 모델)은 대규모 텍스트 데이터베이스에서 훈련되어 대량의 실제 지식을 습득합니다. 이 지식은 매개변수에 내장되어 필요할 때 사용할 수 있습니다. 이러한 모델에 대한 지식은 훈련이 끝나면 "구체화"됩니다. 사전 훈련이 끝나면 모델은 실제로 학습을 중단합니다. 모델을 정렬하거나 미세 조정하여 이 지식을 활용하고 사용자 질문에 보다 자연스럽게 응답하는 방법을 알아보세요. 그러나 때로는 모델 지식만으로는 충분하지 않을 때도 있으며, 모델이 RAG를 통해 외부 콘텐츠에 접근할 수 있더라도 미세 조정을 통해 모델을 새로운 도메인에 적응시키는 것이 유익한 것으로 간주됩니다. 이러한 미세 조정은 인간 주석 작성자 또는 기타 LLM 생성자의 입력을 사용하여 수행됩니다. 여기서 모델은 추가적인 실제 지식을 접하고 이를 통합합니다.

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

편집자 |ScienceAI 질문 응답(QA) 데이터 세트는 자연어 처리(NLP) 연구를 촉진하는 데 중요한 역할을 합니다. 고품질 QA 데이터 세트는 모델을 미세 조정하는 데 사용될 수 있을 뿐만 아니라 LLM(대형 언어 모델)의 기능, 특히 과학적 지식을 이해하고 추론하는 능력을 효과적으로 평가하는 데에도 사용할 수 있습니다. 현재 의학, 화학, 생물학 및 기타 분야를 포괄하는 과학적인 QA 데이터 세트가 많이 있지만 이러한 데이터 세트에는 여전히 몇 가지 단점이 있습니다. 첫째, 데이터 형식이 비교적 단순하고 대부분이 객관식 질문이므로 평가하기 쉽지만 모델의 답변 선택 범위가 제한되고 모델의 과학적 질문 답변 능력을 완전히 테스트할 수 없습니다. 이에 비해 개방형 Q&A는

1. 소개 지난 몇 년 동안 YOLO는 계산 비용과 감지 성능 간의 효과적인 균형으로 인해 실시간 객체 감지 분야에서 지배적인 패러다임이 되었습니다. 연구원들은 YOLO의 아키텍처 설계, 최적화 목표, 데이터 확장 전략 등을 탐색하여 상당한 진전을 이루었습니다. 동시에 사후 처리를 위해 NMS(비최대 억제)에 의존하면 YOLO의 엔드투엔드 배포가 방해되고 추론 대기 시간에 부정적인 영향을 미칩니다. YOLO에서는 다양한 구성 요소의 설계에 포괄적이고 철저한 검사가 부족하여 상당한 계산 중복이 발생하고 모델 기능이 제한됩니다. 이는 최적이 아닌 효율성을 제공하며 성능 향상을 위한 상대적으로 큰 잠재력을 제공합니다. 이 작업의 목표는 사후 처리와 모델 아키텍처 모두에서 YOLO의 성능 효율성 경계를 더욱 향상시키는 것입니다. 이를 위해

Editor | KX 약물 연구 및 개발 분야에서 단백질과 리간드의 결합 친화도를 정확하고 효과적으로 예측하는 것은 약물 스크리닝 및 최적화에 매우 중요합니다. 그러나 현재 연구에서는 단백질-리간드 상호작용에서 분자 표면 정보의 중요한 역할을 고려하지 않습니다. 이를 기반으로 Xiamen University의 연구자들은 처음으로 단백질 표면, 3D 구조 및 서열에 대한 정보를 결합하고 교차 주의 메커니즘을 사용하여 다양한 양식 특징을 비교하는 새로운 다중 모드 특징 추출(MFE) 프레임워크를 제안했습니다. 조정. 실험 결과는 이 방법이 단백질-리간드 결합 친화도를 예측하는 데 있어 최첨단 성능을 달성한다는 것을 보여줍니다. 또한 절제 연구는 이 프레임워크 내에서 단백질 표면 정보와 다중 모드 기능 정렬의 효율성과 필요성을 보여줍니다. 관련 연구는 "S"로 시작된다

1일 본 사이트 소식에 따르면 SK하이닉스는 오늘(1일) 블로그 게시물을 통해 8월 6일부터 8일까지 미국 캘리포니아주 산타클라라에서 열리는 글로벌 반도체 메모리 서밋 FMS2024에 참가한다고 밝혔다. 많은 새로운 세대의 제품. 인공지능 기술에 대한 관심이 높아지고 있는 가운데, 이전에는 주로 NAND 공급업체를 대상으로 한 플래시 메모리 서밋(FlashMemorySummit)이었던 미래 메모리 및 스토리지 서밋(FutureMemoryandStorage) 소개를 올해는 미래 메모리 및 스토리지 서밋(FutureMemoryandStorage)으로 명칭을 변경했습니다. DRAM 및 스토리지 공급업체와 더 많은 플레이어를 초대하세요. SK하이닉스가 지난해 출시한 신제품
