AIGC에 대해 더 알고 싶으시면 다음을 방문하세요.
51CTO AI는 인터넷 어디에서나 볼 수 있는 전통적인 문제은행과는 다릅니다. - 상자적 사고.
대형 언어 모델(LLM)은 데이터 과학, 생성 인공 지능(GenAI) 및 인공 지능 분야에서 점점 더 중요해지고 있습니다. 이러한 복잡한 알고리즘은 인간의 기술을 향상시키고 많은 산업 분야에서 효율성과 혁신을 촉진하여 기업이 경쟁력을 유지하는 데 핵심이 됩니다. LLM은 자연어 처리, 텍스트 생성, 음성 인식 및 추천 시스템과 같은 분야에서 광범위하게 사용될 수 있습니다. LLM은 대량의 데이터를 통해 학습함으로써 텍스트를 생성하고 질문에 답하며 인간과 대화에 참여하고 정확하고 가치 있는 정보를 제공할 수 있습니다. GenAI는 다양한 창의적인 기능을 생성할 수 있는 LLM 알고리즘과 모델에 의존합니다. 그러나 GenAI와 LLM이 점점 더 보편화되고 있지만 이들의 복잡성을 깊이 이해할 수 있는 자세한 리소스는 여전히 부족합니다. 직장에 새로 온 사람들은 GenAI와 LLM의 기능과 실제 적용에 대한 인터뷰를 진행할 때 종종 미지의 영역에 갇혀 있는 듯한 느낌을 받습니다.
이를 위해 GenAI & LLM에 대한 기술 면접 질문을 기록하기 위해 이 가이드북을 편집했습니다. 심층적인 답변이 포함된 이 가이드는 인터뷰를 준비하고, 자신 있게 문제에 접근하고, AI 및 데이터 과학의 미래를 형성하는 데 있어 GenAI 및 LLM의 영향과 잠재력을 더 깊이 이해하는 데 도움이 되도록 설계되었습니다.
1. Python에 내장된 사전을 사용하여 지식 그래프를 구축하는 방법은 무엇입니까?
한 가지 방법은 해시(Python의 사전, 키-값 테이블이라고도 함)를 사용하는 것입니다. 여기서 키는 단어, 토큰, 개념입니다. 또는 "수학"과 같은 카테고리. 각 키는 그 자체가 해시인 중첩된 해시인 값에 해당합니다. 중첩된 해시의 키는 "calculus"와 같은 단어와 같이 상위 해시의 상위 키와 관련된 단어이기도 합니다. 값은 가중치입니다. "calculus"는 "calculus"와 "mathematics"가 관련되어 있고 종종 함께 나타나기 때문에 높은 값을 가지며, "restaurants"는 "restaurants"와 "mathematics"가 거의 함께 나타나지 않기 때문에 낮은 값을 갖습니다.
LLM에서는 중첩된 해싱이 임베딩(고차원 데이터를 저차원 공간에 매핑하는 방법으로, 일반적으로 컴퓨터 처리 처리를 용이하게 하기 위해 이산적이고 비연속적인 데이터를 연속 벡터 표현으로 변환하는 데 사용됨)이 될 수 있습니다. 중첩 해싱에는 고정된 수의 요소가 없으므로 벡터 데이터베이스나 행렬보다 이산 그래프를 훨씬 더 잘 처리합니다. 더 빠른 알고리즘을 제공하고 더 적은 메모리를 필요로 합니다.
2. 데이터에 1억 개의 키워드가 포함되어 있는 경우 어떻게 계층적 클러스터링을 수행할 수 있나요?
키워드를 클러스터링하려면 각 키워드 쌍 {A, B}에 대해 두 단어 사이의 유사도를 계산하면 됩니다. 얼마나 비슷한지. 목표는 유사한 키워드의 클러스터를 생성하는 것입니다.
3. 개별 항목뿐만 아니라 기본 구조를 검색하기 위해 Wikipedia와 같은 대규모 저장소를 크롤링하는 방법은 무엇입니까?
이 저장소는 모두 웹 페이지에 구조화된 요소를 포함하여 언뜻 보기에 보이는 것보다 콘텐츠를 더 흥미롭게 만듭니다. 메타데이터와 같은 일부 구조적 요소는 육안으로 보이지 않습니다. 인덱스, 관련 항목, 이동 경로 또는 카테고리와 같은 일부 항목은 표시되며 크롤링된 데이터에도 존재합니다. 이러한 요소를 개별적으로 검색하여 좋은 지식 그래프나 분류 체계를 구축할 수 있습니다. 하지만 Beautiful Soup과 같은 도구에 의존하기보다는 처음부터 자신만의 크롤러를 작성하고 싶을 수도 있습니다. 구조적 정보가 풍부한 LLM(예: xLLM)은 더 나은 결과를 제공합니다. 또한 저장소에 구조가 부족한 경우 외부 소스에서 검색된 구조를 사용하여 스크랩한 데이터를 확장할 수 있습니다. 이 프로세스를 "구조 확대"라고 합니다.
임베딩은 모든 문서에서 찾을 수 있는 가장 작은 텍스트 요소로 구성됩니다. "data" 및 "science"와 같이 반드시 두 개의 토큰이 있을 필요는 없으며 "data^science", "data", "science" 및 "data~science"의 네 가지 토큰이 있을 수 있습니다. 마지막은 '데이터 과학'이라는 용어의 발견을 나타냅니다. 첫 번째는 "데이터"와 "과학"이 모두 발견되었지만 인접한 위치가 아닌 주어진 단락 내에서 임의의 위치에 있음을 의미합니다. 이러한 토큰을 다중 토큰 또는 상황별 토큰이라고 합니다. 이는 약간의 중복성을 제공하지만 주의하지 않으면 거대한 임베딩이 발생할 수 있습니다. 해결책에는 쓸모 없는 토큰을 지우고(가장 긴 토큰을 유지) 가변 크기 임베딩을 사용하는 것이 포함됩니다. 상황에 맞는 콘텐츠는 LLM 환상을 줄이는 데 도움이 될 수 있습니다.
이것은 신경망 블랙박스가 아닌 설명 가능한 AI 기반 시스템에 적용됩니다. 애플리케이션 사용자가 하이퍼파라미터를 선택하고 원하는 항목을 표시할 수 있도록 허용합니다. 이 정보를 사용하여 이상적인 초매개변수를 찾고 이를 기본값으로 설정합니다. 이는 사용자 입력을 기반으로 한 자동화된 강화 학습입니다. 또한 사용자는 원하는 결과에 따라 자신이 가장 좋아하는 슈트를 선택할 수 있으므로 애플리케이션을 사용자 정의할 수 있습니다. LLM 내에서 사용자가 특정 하위 LLM을 선택할 수 있도록 허용하면(예: 검색 유형 또는 카테고리 기준) 성능이 더욱 향상될 수 있습니다. 출력의 각 항목에 관련성 점수를 추가하면 시스템을 미세 조정하는 데 도움이 될 수도 있습니다.
LLM에서 가변 길이 임베딩을 사용하면 임베딩 크기가 크게 줄어듭니다. 따라서 프런트엔드 프롬프트에서 캡처된 것과 유사한 백엔드 임베딩에 대한 검색 속도가 빨라집니다. 그러나 키-값 테이블과 같은 다른 유형의 데이터베이스가 필요할 수 있습니다. 토큰 크기와 임베딩 테이블을 줄이는 것이 또 다른 솔루션입니다. 1조 개의 토큰 시스템에서는 프롬프트에 응답하기 위해 토큰의 95%가 추출되지 않습니다. 소음일 뿐이므로 제거하세요. 컨텍스트 토큰(질문 4 참조)을 사용하는 것은 정보를 보다 간결하게 저장하는 또 다른 방법입니다. 마지막으로 압축된 임베딩에 ANN(Aximous Nearest Neighbor) 검색이 사용됩니다. pANN(확률적 버전)은 훨씬 빠르게 실행될 수 있습니다. 아래 그림을 참조하세요. 마지막으로 더 나은 실시간 성능을 위해 캐싱 메커니즘을 사용하여 가장 자주 액세스하는 임베딩 또는 쿼리를 저장합니다.
Probabilistic Approximate Nearest Neighbor Search(pANN)
경험에 따르면 훈련 세트의 크기를 50% 줄이면 더 좋은 결과를 얻을 수 있고 과적합 효과도 크게 줄어듭니다. LLM에서는 인터넷 전체를 검색하는 것보다 몇 가지 좋은 입력 소스를 선택하는 것이 더 좋습니다. 하나의 크기로 모든 것에 적합하지 않고 각 최상위 범주에 대한 전용 LLM을 사용하면 임베딩 수가 더욱 줄어듭니다. 각 팁은 전체 데이터베이스가 아닌 특정 하위 LLM을 대상으로 합니다.
가장 좋은 솔루션은 모델 평가 지표를 손실 함수로 사용하는 것입니다. 이것이 거의 이루어지지 않는 이유는 신경망에서 뉴런이 활성화될 때마다 매우 빠르게 업데이트될 수 있는 손실 함수가 필요하기 때문입니다. 신경망의 맥락에서 또 다른 해결책은 각 에포크 이후 평가 지표를 계산하고 손실이 가장 작은 에포크 생성 솔루션이 아닌 최고의 평가 점수를 가진 에포크 생성 솔루션을 유지하는 것입니다.
현재 평가 지표와 손실 함수가 동일한 시스템을 개발 중입니다. 신경망을 기반으로 하지 않습니다. 처음에 내 평가 지표는 다변량 Kolmogorov-Smirnov 거리(KS)였습니다. 하지만 많은 계산을 하지 않으면 빅데이터에 대한 KS의 원자 업데이트를 수행하기가 매우 어렵습니다. 수십억 개의 원자 업데이트가 필요하기 때문에 KS는 손실 함수로 적합하지 않습니다. 하지만 누적 분포 함수를 수백만 개의 빈이 있는 확률 밀도 함수로 변경함으로써 손실 함수로도 작동하는 좋은 평가 지표를 생각해낼 수 있었습니다.
원제: 7 Cool Technical GenAI & LLM 취업 면접 질문, 저자: Vincent Granville
링크: https://www.datasciencecentral.com/7-cool-technical-genai-llm-job-interview-questions/.
AIGC에 대해 자세히 알아보려면 다음을 방문하세요.
51CTO AI.x 커뮤니티
https://www.51cto.com/aigc/
위 내용은 7가지 멋진 GenAI 및 LLM 기술 인터뷰 질문의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!