기술 주변기기 일체 포함 llama 3.2 90b 튜토리얼 : leamlit & groq를 가진 이미지 캡션 앱

llama 3.2 90b 튜토리얼 : leamlit & groq를 가진 이미지 캡션 앱

Mar 01, 2025 am 10:28 AM

Meta는 Llama 3.2 11B & 90B 비전 모델을 도입하여 LLAMA 생태계에 다중 분해율을 추가했습니다. 이 두 모델은 텍스트와 이미지를 모두 처리 할 때 탁월하여 90b 버전을 사용하여 프로젝트를 구축했습니다. 이 기사에서는 저의 작품을 공유하고 프론트 엔드 용 Streamlit을 사용하여 대화식 이미지 캡션 앱을 구축하고 캡션을 생성하기위한 엔진으로 LLAMA 3.2 90B를 구축하도록 안내합니다. 이미지 캡션 앱에 llama 3.2 90b를 사용하는 이유 시각적 추론, 이미지 인식 및 이미지 캡션과 같은 복잡한 작업을 다루는 능력으로 눈에.니다. 60 억 이미지 텍스트 쌍의 대규모 데이터 세트에 대해 교육을 받았습니다. 이러한 기능이 이미지 캡션과 같은 실제 응용 프로그램으로 어떻게 해석되는지 살펴 보겠습니다. 이미지 캡션 파이프 라인 이미지 캡션은 이미지의 내용을 요약 한 설명 텍스트를 생성하는 자동화 된 프로세스입니다. 그것은 컴퓨터 비전과 자연어 처리를 결합하여 언어로 시각적 세부 사항을 해석하고 표현합니다.

전통적으로 이미지 캡션에는 복잡한 파이프 라인이 필요했으며, 종종 이미지 처리 및 언어 생성을위한 별도의 단계가 포함되어 있습니다. 표준 접근법에는 이미지 전처리, 기능 추출 및 캡션 생성의 세 가지 주요 단계가 포함됩니다.

이미지 전처리 : 이미지는 일반적으로 모델의 입력 사양을 충족시키기 위해 크기가 조정, 정규화 및 때때로 자르고 있습니다. <:> 특징 추출 : 시각적 기능을 추출하여 이미지 내에서 객체, 장면 또는 관련 세부 사항을 식별합니다. 대부분의 모델에서는 이미지를 해석하기 위해 별도의 비전 모델이 필요하며 언어 모델이 이해할 수있는 구조화 된 데이터를 생성합니다. <:> 캡션 생성 :이 추출 된 특징들은 언어 모델에 의해 일관된 설명을 만들기 위해 사용하여 시각적 데이터에서 식별 된 객체, 컨텍스트 및 관계를 결합합니다.

이미지 캡션 앱의 개요

Llama 3.2 90b의 힘을 생생하게하기 위해, 우리는 프론트 엔드 용 Sleamlit 및 캡션을 생성하기위한 Groq를 사용하여 간단하면서도 효과적인 이미지 캡션 응용 프로그램을 구축 할 것입니다.

. 앱을 사용하면 사용자가 이미지를 업로드하고 단 2 번의 클릭으로 모델에서 생성 한 설명 캡션을 수신 할 수 있습니다. 이 설정은 사용자 친화적이며 시작하려면 최소한의 코딩 지식이 필요합니다.

우리의 응용 프로그램에는 다음과 같은 기능이 포함됩니다

제목 : 앱의 목적을 설정하기 위해 눈에 띄게 표시된 제목 Llama Captioner. <: :> 업로드 버튼 : 사용자 장치에서 이미지를 업로드하는 인터페이스.

<: :> 버튼 생성 : 캡션 생성 프로세스를 시작하는 버튼.

캡션 출력 : 앱이 인터페이스에 생성 된 캡션을 직접 표시합니다.

LLAMA 3.2 90B 앱 코드 구현 Groq API는 사용자의 업로드 된 이미지와 LLAMA 3.2 vision 모델 사이의 브리지 역할을합니다. 나와 함께 따르고 코딩하고 싶다면 먼저 확인하십시오 :

Groq 콘솔에 가입하여 Groq API 키를 얻으십시오. API 키를
    Credentials.json
  1. 파일에 저장하여 액세스를 단순화합니다. 설치 및 구성을 위해 Groq의 QuickStart 안내서를 따르십시오
  2. 아래 의이 파이썬 코드 스 니펫 아래는 Groq API와 상호 작용하기 위해 간소화 된 응용 프로그램을 설정합니다. 포함 :
  3. 웹 앱 개발 (간소), AI 상호 작용 (GROQ), 이미지 처리 (Base64) 및 파일 작업 (OS, JSON)을 위해 라이브러리를 가져옵니다. 는 강화 된 보안을 위해 별도의 JSON 파일에서 Groq API 키를 읽습니다. 효율적인 전송 및 처리를 위해 이미지를 Base64 형식으로 인코딩하는 함수를 정의합니다.
  4. 우리는 Groq API를 사용하여 업로드 된 이미지에 대한 텍스트 설명을 생성하도록 설계된 아래 함수를 작성하여 계속 이동합니다. 다음은 기능의 고장입니다
      이미지 인코딩 : 업로드 된 이미지는 Base64 인코딩 문자열로 변환됩니다. 이 형식은 API 요청 내에서 이미지 데이터를 쉽게 전송할 수 있습니다. Groq API 상호 작용 : Groq 클라이언트는 Groq 서비스와의 커뮤니케이션을 용이하게하기 위해 인스턴스화됩니다. 채팅 완료 요청은 다음과 같이 구성됩니다
    1. 사용자 프롬프트 : "이 이미지에 무엇이 있습니까?" Base64는 데이터 URI에 내장 된 인코딩 된 이미지 데이터입니다. LLAMA-3.2-90B-VISION-PREVIEW 모델은 이미지를 처리하고 텍스트 설명을 생성하도록 지정됩니다.
    2. 캡션 추출 : 생성 된 캡션은 GROQ API 응답에서 추출됩니다. 캡션이 포함 된 첫 번째 선택의 메시지 내용이 반환됩니다.
    • 마지막으로, 우리는 간소화를 통해 대화식 웹 앱을 생성합니다.
    • 최종 간소화 앱 : llama 캡션 이 유선 애플리케이션은 이미지 캡션을위한 사용자 친화적 인 인터페이스를 제공합니다. 다음은 기능의 고장입니다 제목 및 파일 업 로더 :
      앱에는 "llama captioner"라는 제목이 표시됩니다 파일 업 로더 구성 요소를 통해 사용자는 이미지 파일 (jpg, jpeg 또는 png)을 선택할 수 있습니다.
    1. 이미지 디스플레이 :
    import streamlit as st
    from groq import Groq
    import base64
    import os
    import json
    
    # Set up Groq API Key
    os.environ['GROQ_API_KEY'] = json.load(open('credentials.json', 'r'))['groq_token']
    
    # Function to encode the image
    def encode_image(image_path):
       with open(image_path, "rb") as image_file:
           return base64.b64encode(image_file.read()).decode('utf-8')
    로그인 후 복사
    이미지가 업로드되면 앱은 st.Image 함수를 사용하여 표시합니다.

    <:> 캡션 생성 :
    # Function to generate caption
    def generate_caption(uploaded_image):
       base64_image = base64.b64encode(uploaded_image.read()).decode('utf-8')
       client = Groq()
       chat_completion = client.chat.completions.create(
           messages=[
               {
                   "role": "user",
                   "content": [
                       {"type": "text", "text": "What's in this image?"},
                       {
                           "type": "image_url",
                           "image_url": {
                               "url": f"data:image/jpeg;base64,{base64_image}",
                           },
                       },
                   ],
               }
           ],
           model="llama-3.2-90b-vision-preview",
       )
       return chat_completion.choices[0].message.content
    로그인 후 복사

    a 버튼,"캡션 생성 ", 캡션 생성 프로세스를 트리거합니다 클릭하면 스피너는 캡션이 생성되고 있음을 나타냅니다. <_> generate_caption 함수는 업로드 된 이미지를 처리하고 캡션을 얻기 위해 호출됩니다. 성공할 때 성공 메시지가 표시되고 생성 된 캡션이 표시됩니다.

    아래 스 니펫은 캡션을 생성하기 위해 Eddie Hall의 이미지가 업로드 된 코드입니다. 놀랍게도 그것은“가장 강한 사람”등처럼 명확하게 보이지 않는 정보조차 추출했습니다.

      결론 LLAMA 3.2 90B 및 Streamlit을 사용하여 이미지 캡션 앱을 구축하면 Advanced AI가 어려운 작업을 더 쉽게 만들 수있는 방법을 보여줍니다. 이 프로젝트는 강력한 모델과 간단한 인터페이스를 결합하여 직관적이고 사용하기 쉬운 도구를 만듭니다. AI 엔지니어로서 이와 같은 도구에서 큰 잠재력이 보입니다. 그들은 기술을보다 쉽게 ​​접근 할 수있게하고 사람들이 콘텐츠에 더 잘 참여하도록 돕고, 더 똑똑한 방식으로 프로세스를 자동화 할 수 있습니다.
    1. . 라마에 대한 학습을 ​​계속하려면 다음 리소스를 추천합니다.
        Torchchat 미세 조정 라마 3.2 및 로컬 사용 : 단계별 안내서

위 내용은 llama 3.2 90b 튜토리얼 : leamlit & groq를 가진 이미지 캡션 앱의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Meta Llama 3.2- 분석 Vidhya를 시작합니다 Meta Llama 3.2- 분석 Vidhya를 시작합니다 Apr 11, 2025 pm 12:04 PM

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다. 10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다. Apr 13, 2025 am 01:14 AM

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - &#8217

AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등 AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등 Apr 11, 2025 pm 12:01 PM

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

직원에게 AI 전략 판매 : Shopify CEO의 선언문 직원에게 AI 전략 판매 : Shopify CEO의 선언문 Apr 10, 2025 am 11:19 AM

Shopify CEO Tobi Lütke의 최근 메모는 AI 숙련도가 모든 직원에 대한 근본적인 기대를 대담하게 선언하여 회사 내에서 중요한 문화적 변화를 표시합니다. 이것은 도망가는 트렌드가 아닙니다. 그것은 p에 통합 된 새로운 운영 패러다임입니다

GPT-4O vs Openai O1 : 새로운 OpenAI 모델은 과대 광고 가치가 있습니까? GPT-4O vs Openai O1 : 새로운 OpenAI 모델은 과대 광고 가치가 있습니까? Apr 13, 2025 am 10:18 AM

소개 OpenAi는 기대가 많은 "Strawberry"아키텍처를 기반으로 새로운 모델을 출시했습니다. O1로 알려진이 혁신적인 모델은 추론 기능을 향상시켜 문제를 통해 생각할 수 있습니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서 비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서 Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

최고의 프롬프트 엔지니어링 기술의 최신 연간 편집 최고의 프롬프트 엔지니어링 기술의 최신 연간 편집 Apr 10, 2025 am 11:22 AM

내 칼럼을 처음 접할 수있는 분들을 위해, 나는 구체화 된 AI, AI 추론, AI의 첨단 획기적인 혁신, AI 교육, AI의 수비, ai re

LLAMA 3.2를 실행하는 3 가지 방법 분석 Vidhya LLAMA 3.2를 실행하는 3 가지 방법 분석 Vidhya Apr 11, 2025 am 11:56 AM

메타의 라마 3.2 : 멀티 모달 AI 강국 Meta의 최신 멀티 모드 모델 인 LLAMA 3.2는 AI의 상당한 발전으로 향상된 언어 이해력, 개선 된 정확도 및 우수한 텍스트 생성 기능을 자랑합니다. 그것의 능력 t

See all articles