Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya-일체 포함-php.cn

원래 변압기의 도입은 현재 큰 언어 모델의 길을 열었습니다. 유사하게, 변압기 모델이 도입 된 후, Vision Transformer (VIT)가 도입되었다. 응답이 주어진 텍스트를 이해하고 텍스트를 생성하는 데 탁월한 변압기와 마찬가지로, 비전 변압기 모델은 이미지를 이해하고 이미지가 주어진 정보를 제공하기 위해 개발되었습니다. 이로 인해 비전 언어 모델이 생겨 이미지를 이해하는 데 탁월했습니다. Microsoft는이를 한 단계 더 발전 시켰으며 단일 모델만으로 많은 비전 작업을 수행 할 수있는 모델을 도입했습니다. 이 안내서에서는 Microsoft에서 발표 한 Florence-2라는이 모델을 여러 가지 비전 작업을 해결하도록 설계 될 것입니다.

학습 목표

비전 언어 모델 인 Florence-2에 소개됩니다.
Florence-2 교육 데이터를 이해합니다.
Florence-2 가족의 다른 모델에 대해 알아보십시오.
Florence-2를 다운로드하는 방법을 배우십시오.
Florence-2로 다른 컴퓨터 비전 작업을 수행하기 위해 코드를 작성하십시오.

이 기사는 Data Science Blogathon 의 일부로 출판되었습니다 .

플로렌스 -2는 무엇입니까?

Florence-2는 Microsoft 팀이 개발 한 VLM (Vision Language Model)입니다. 피렌체 -2는 두 가지 크기로 제공됩니다. 하나는 0.23B 버전이고 다른 하나는 0.77B 버전입니다. 이러한 낮은 크기로 모든 사람이 CPU 자체에서 이러한 모델을 쉽게 실행할 수 있습니다. Florence-2는 하나의 모델이 모든 것을 해결할 수 있음을 명심하고 있습니다. Florence-2는 객체 감지, 객체 분할, 이미지 캡션 (세부 캡션 생성), 문구 분할, OCR (광학 문자 인식) 및 이들의 조합을 포함한 다양한 작업을 해결하도록 교육을 받았습니다.

Florence-2 Vision Language 모델은 FLD 5B 데이터 세트에서 교육을 받았습니다. 이 FLD-5B는 Microsoft 팀이 작성한 데이터 세트입니다. 이 데이터 세트에는 약 1 억 2 천 6 백만 이미지에 약 54 억 개의 텍스트 주석이 포함되어 있습니다. 여기에는 13 억 개의 텍스트 영역 주석, 5 억 텍스트 주석 및 36 억 개의 텍스트 문구 주석이 포함됩니다. Florence-2는 OCR, 객체 감지 또는 이미지 캡션과 같은 작업에 대한 텍스트 결과를 생성하여 텍스트 지침 및 이미지 입력을 수용합니다.

아키텍처에는 시각적 인코더와 변압기 인코더 디코더 블록이 포함되어 있으며 손실을 위해 표준 손실 기능, 즉 교차 엔트로피 손실과 함께 작동합니다. Florence-2 모델은 세 가지 유형의 영역 탐지를 수행합니다. 객체 감지를위한 박스 표현, OCR 텍스트 감지를위한 쿼드 박스 표현 및 세분화 작업을위한 다각형 표현.

플로렌스 -2를 사용한 이미지 캡션

이미지 캡션은 이미지가 주어지면 딥 러닝 모델이 이미지에 대한 캡션을 출력하는 비전 언어 작업입니다. 이 캡션은 모델이 겪은 교육을 기반으로 짧거나 상세 할 수 있습니다. 이러한 작업을 수행하는 모델은 이미지가 주어지면 텍스트를 출력하는 방법을 배우는 거대한 이미지 캡션 데이터에 대해 교육을받습니다. 훈련을받는 데이터가 많을수록 이미지를 더 잘 설명하는 데 능숙합니다.

다운로드 및 설치

Florence Vision 모델을 실행하는 데 필요한 일부 라이브러리를 다운로드하고 설치하여 시작합니다.

 ! PIP 설치 -Q -U 변압기는 Flash_attn Einops Timm을 가속화합니다

로그인 후 복사

트랜스포머 : Huggingface의 Transformers Library는 다운로드 할 수있는 다양한 작업을위한 다양한 딥 러닝 모델을 제공합니다.
가속 : Huggingface의 Accelerate 라이브러리는 GPU를 통해 모델을 제공 할 때 모델 추론 시간을 향상시킵니다.
Flash_attn : Flash-Attention Library는 원본보다 더 빠른주의 알고리즘을 구현하며 Florence-2 모델에서 사용됩니다.
Einops : 아인슈타인 작업은 매트릭스 곱셈을 나타내는 단순화되며 Florence-2 모델에서 구현됩니다.

Florence-2 모델 다운로드

이제 Florence-2 모델을 다운로드해야합니다. 이를 위해 아래 코드로 작업 할 것입니다.

 Transformers에서 AutoProcessor, Automodelforcausallm을 가져옵니다

model_id = 'Microsoft/Florence-2-Large-ft'
model = automodelforcausallm.from_pretraind (model_id, trust_remote_code = true) .eval (). cuda ()
프로세서 = autoprocessor.from_pretraind (model_id, trust_remote_code = true, device_map = "cuda")

로그인 후 복사

우리는 AutomodElforcausallm과 자동 프로세서를 가져 오는 것으로 시작합니다.
그런 다음 모델 이름을 Model_Name 변수에 저장합니다. 여기서 우리는 Florence-2의 큰 미세 조정 모델과 협력 할 것입니다.
그런 다음 .from_pretraind () 함수를 호출하여 모델 이름을 제공하고 trust_remote_code = true를 설정하여 automodelforcausallm의 인스턴스를 만듭니다. 이것은 HF 저장소에서 모델을 다운로드합니다.
그런 다음 .eval ()을 호출 하여이 모델을 평가 모델로 설정하고 .cuda () 함수를 호출하여 GPU로 보냅니다.
그런 다음 .from_pretraind ()를 호출하고 모델 이름을 제공하고 device_map을 cuda로 설정하여 자동 프로세서 인스턴스를 만듭니다.

자동 프로세서는 Autotokenizer와 매우 유사합니다. 그러나 Autotokenizer 클래스는 텍스트 및 텍스트 토큰 화를 처리합니다. Florence-2는 이미지 데이터를 처리하기 때문에 자동 프로이트 세저는 텍스트 및 이미지 토큰 화를 모두 처리하는 반면, 우리는 자동 프로세서와 함께 일합니다.

이제 이미지를 찍어 보겠습니다.

 PIL 가져 오기 이미지에서
image = image.open ( "/content/beach.jpg")

로그인 후 복사

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

여기서 우리는 해변 사진을 찍었습니다.

생성 캡션

이제 우리는이 이미지를 Florence-2 Vision Language 모델에 제공하고 캡션을 생성하도록 요청합니다.

 프롬프트 = ""
입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")
generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))
text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]

result = processor.post_process_generation (text_generations, 
task = prompt, image_size = (image.width, image.height)))

인쇄 (결과 [프롬프트])

로그인 후 복사

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

우리는 프롬프트를 만드는 것으로 시작합니다.
그런 다음 프로세서 클래스에 프롬프트와 이미지를 모두 제공하고 Pytorch 센서를 반환합니다. 모델은 GPU에 상주하고 변수 입력에 저장하기 때문에 GPU에 제공합니다.
입력 변수에는 input_ids, 즉 토큰 ID 및 이미지의 픽셀 값이 포함됩니다.
그런 다음 모델의 생성 기능을 호출하고 입력 ID 인 이미지 픽셀 값을 제공합니다. 우리는 생성 된 최대 토큰을 512로 설정하여 샘플링을 False로 유지하고 생성 된 토큰을 Generated_ids에 저장합니다.
그런 다음 프로세서의 .batch_decode 함수를 호출하십시오. 이것은 목록이므로 목록의 첫 번째 요소가 필요합니다.
마지막으로, .post_process_generated를 호출하고 생성 된 텍스트, 작업 유형 및 image_size를 튜플로 제공하여 생성 된 텍스트를 사후 처리합니다.

코드를 실행하고 위의 출력 사진을 볼 때, 우리는이 모델이 이미지에 대한“배경에 바다가있는 해변에 우산과 라운지 의자”캡션을 생성했음을 알 수 있습니다. 위의 이미지 캡션은 매우 짧습니다.

프롬프트 제공

우리는 및 과 같은 다른 프롬프트를 제공함으로써 다음 단계를 수행 할 수 있습니다.

이것을 시도하기위한 코드는 아래에서 볼 수 있습니다.

 프롬프트 = "<elected_caption>"
입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")
generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))
text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]

result = processor.post_process_generation (text_generations, 
task = prompt, image_size = (image.width, image.height)))

인쇄 (결과 [프롬프트])</elected_caption>

로그인 후 복사

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

 프롬프트 = "<more_detailed_caption>"

입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")

generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))


text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]

result = processor.post_process_generation (text_generations, 
task = prompt, image_size = (image.width, image.height)))

인쇄 (결과 [프롬프트])</more_detailed_caption>

로그인 후 복사

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

여기에서 작업 유형의 및 과 함께 진행되었으며 위 그림에서 코드를 실행 한 후 결과를 볼 수 있습니다. 은 출력을 제작했습니다.“이 이미지에서는 의자, 테이블, 우산, 물, 선박, 나무, 구름이있는 건물 및 하늘을 볼 수 있습니다.” 그리고 프롬프트는 출력을 생산했습니다.“오렌지 우산이 해변에 있습니다. 우산 옆에 흰색 라운지 의자가 있습니다. 물에 두 개의 보트가 있습니다.” 따라서이 두 가지 프롬프트를 사용하면 일반 프롬프트보다 이미지 캡션에서 약간 더 깊이를 얻을 수 있습니다.

플로렌스 -2를 사용한 물체 감지

객체 감지는 컴퓨터 비전에서 잘 알려진 작업 중 하나입니다. 이미지가 주어진 객체를 찾는 것을 다룹니다. 객체 감지에서 모델은 이미지를 식별하고 객체 주변의 경계 상자의 X 및 Y 좌표를 제공합니다. Florence-2 Vision Language 모델은 이미지가 주어진 물체를 감지 할 수 있습니다.

아래 이미지로 이것을 시도해 봅시다.

 image = image.open ( "/content/van.jpg")

로그인 후 복사

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

여기, 우리는 백그라운드에 흰색 건물이있는 도로에 밝은 주황색 밴의 이미지가 있습니다.

Florence-2 Vision Language 모델에 이미지 제공

이제이 이미지를 Florence-2 Vision Language 모델에 제공합시다.

 프롬프트 = "<d>"

입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")

generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))
text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]

results = processor.post_process_generation (text_generations, 
task = prompt, image_size = (image.width, image.height)))
</d>

로그인 후 복사

객체 감지 프로세스는 방금 수행 한 이미지 캡션 작업과 매우 유사합니다. 여기서 유일한 차이점은 프롬프트를 의미 객체 감지로 변경한다는 것입니다. 따라서이 프롬프트와 함께 이미지와 함께 프로세서 객체에 대한 프롬프트를 제공하고 토큰 화 된 입력을 얻습니다. 그런 다음 이미지 픽셀 값으로 이러한 토큰 화 된 입력을 Florence-2 Vision Language Model에 제공하여 출력을 생성합니다. 그런 다음이 출력을 해독하십시오.

출력은 이름이 지정된 변수에 저장됩니다. 변수 결과는 형식 {”: { 'bboxes': [[x1, y1, x2, y2],…], 'labels': [ 'label1', 'label2',…]}}.

이미지에 경계 상자를 그리십시오

이제 우리는 우리가 가진 좌표와 함께 이미지에 경계 상자를 그릴 것입니다.

 matplotlib.pyplot을 plt로 가져옵니다
matplotlib.patches를 패치로 가져옵니다
그림, ax = plt.subplots ()
ax.imshow (이미지)
bbox, zip의 레이블 (results [prompt] [ 'bboxes'], results [prompt] [ 'labels']) :
    x1, y1, x2, y2 = bbox
    rect_box = patches.rectangle ((x1, y1), x2-x1, y2-y1, linewidth = 1, 
    edgecolor = 'r', facecolor = 'none')
    ax.add_patch (rect_box)
    plt.text (x1, y1, label, color = 'white', fontsize = 8, bbox = dict (facecolor = 'red', alpha = 0.5)).
ax.axis ( 'off')
plt.show ()

로그인 후 복사

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

이미지 주위에 직사각형 경계 상자를 그리기 위해 Matplotlib 라이브러리로 작업합니다.
우리는 그림과 축을 만드는 것으로 시작한 다음 Florence-2 Vision Language 모델에 제공 한 이미지를 표시합니다.
여기서는 모델 출력이 x, y 좌표를 포함하는 목록이며 최종 출력에는 경계 상자 목록이 있습니다. 즉, 각 레이블에는 자체 경계 상자가 있습니다.
그래서 우리는 경계 상자 목록을 반복합니다.
그런 다음 경계 상자의 X 및 Y 좌표를 풀립니다.
그런 다음 마지막 단계에서 포장을 풀었던 좌표로 사각형을 그립니다.
마지막으로, 우리는 현재 표시중인 이미지에 패치합니다.
경계 상자에 어떤 객체가 포함되어 있는지 알리기 위해 경계 상자에 레이블을 추가해야합니다.
마지막으로 축을 제거합니다.

이 코드를 실행하고 그림을보고, 우리는 우리가 제공 한 밴 이미지에 대한 Florence-2 Vision Language Model에서 생성 된 많은 경계 상자가 있음을 알 수 있습니다. 우리는 모델이 밴, 창 및 휠을 감지했으며 각 레이블에 대한 올바른 좌표를 제공 할 수 있음을 알 수 있습니다.

문구 접지에 대한 캡션

다음으로, Florence-2 모델이 지원하는 "캡션에 대한 캡션"이라는 작업이 있습니다. 모델이 이미지와 캡션을 감안할 때, 구절 접지의 작업은 주어진 캡션의 명사 문구에 의해 언급 된 각 / 가장 관련성있는 엔티티 / 객체를 이미지의 영역에 찾는 것입니다.

아래 코드 로이 작업을 살펴볼 수 있습니다.

 프롬프트 = "<caption_to_phrase_grounding> 흰색 건물 앞에 주차 된 오렌지 밴"
task_type = "<caption_to_phrase_grounding>"
입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")
generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))
text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]
results = processor.post_process_generation (text_generations, 
task = task_type, image_size = (image.width, image.height)))
</caption_to_phrase_grounding></caption_to_phrase_grounding>

로그인 후 복사

프롬프트를 위해, 우리는“ 흰색 건물 앞에 주차 된 오렌지 밴”을 제공하고 있습니다. 여기서 작업은“”이며 문구는“흰색 건물 앞에 주차 된 오렌지 밴”입니다. 피렌체 모델은이 주어진 문구에서 얻을 수있는 객체/엔티티에 경계 상자를 생성하려고합니다. 그것을 플로팅하여 최종 출력을 보자.

 matplotlib.pyplot을 plt로 가져옵니다
matplotlib.patches를 패치로 가져옵니다
그림, ax = plt.subplots ()
ax.imshow (이미지)
bbox, zip의 레이블 (results [task_type] [ 'bboxes'], results [task_type] [ 'labels') :
    x1, y1, x2, y2 = bbox
    rect_box = patches.rectangle ((x1, y1), x2-x1, y2-y1, linewidth = 1, 
    edgecolor = 'r', facecolor = 'none')
    ax.add_patch (rect_box)
    plt.text (x1, y1, label, color = 'white', fontsize = 8, bbox = dict (facecolor = 'red', alpha = 0.5)).
ax.axis ( 'off')
plt.show ()

로그인 후 복사

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

여기서는 Florence-2 Vision Language 모델이 두 개체에서 두 개를 추출 할 수 있음을 알 수 있습니다. 하나는 오렌지 밴이고 다른 하나는 흰색 건물입니다. 그런 다음 Florence-2는 이러한 각 엔티티에 대한 경계 상자를 생성했습니다. 이러한 방식으로, 캡션이 주어지면, 모델은 주어진 캡션에서 관련 엔티티/객체를 추출하고 해당 객체에 해당하는 경계 박스를 생성 할 수 있습니다.

플로렌스 -2를 사용한 세분화

세분화는 이미지의 여러 부분에 대해 이미지를 촬영하고 마스크가 생성되는 프로세스입니다. 각 마스크는 물체입니다. 세분화는 객체 감지의 다음 단계입니다. 객체 감지에서는 이미지의 위치 만 찾아 경계 상자 만 생성합니다. 그러나 분할에서 직사각형 경계 박스를 생성하는 대신 물체의 모양에있는 마스크를 생성하므로 해당 물체의 마스크를 만드는 것과 같습니다. 이것은 우리가 객체의 위치를 알뿐만 아니라 물체의 모양조차 알고 있기 때문에 도움이됩니다. 운 좋게도 Florence-2 Vision Language 모델은 세분화를 지원합니다.

이미지에서 분할

우리는 밴 이미지로 분할을 시도 할 것입니다.

 프롬프트 = "<weferring_expression_segmentation> 두 개의 검은 타이어"
task_type = "<seferring_expression_segmentation>"
입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")
generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))
text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]

results = processor.post_process_generation (text_generations, 
task = task_type, image_size = (image.width, image.height)))
</seferring_expression_segmentation></weferring_expression_segmentation>

로그인 후 복사

여기서 프로세스는 이미지 캡션 및 객체 감지 작업과 유사합니다. 우리는 프롬프트를 제공하는 것으로 시작합니다.
여기서 프롬프트는 " 두 검은 타이어"입니다. 여기서 작업은 세분화입니다.
세분화는 제공된 텍스트 입력을 기반으로하며 여기서는 "두 개의 검은 색 타이어"입니다.
따라서 Florence-2 모델은이 텍스트 입력 및 제공된 이미지와 밀접한 관련이있는 마스크를 생성하려고합니다.

여기서 결과 변수는 형식 {”: { 'polygons': [[polygon]],…], 'labels': [”,”,…]}} 형식입니다. 여기서 각 객체/마스크는 다각형 목록으로 표시되고 각 다각형은 [x1, y1, x2, y2, xn, yn] 형식입니다.

마스크 생성 및 실제 이미지에서 오버레이

이제이 마스크를 만들어 실제 이미지에서 오버레이하여 더 잘 시각화 할 수 있습니다.

 가져 오기 사본
Numpy를 NP로 가져옵니다
IPYTHON. DISPLAY 가져 오기 디스플레이
PIL 가져 오기 이미지, ImageDraw, ImageFont에서

output_image = copy.deepcopy (이미지)
res = 결과 [task_type]
draw = imagedraw.draw (output_image)
스케일 = 1
다각형의 경우 zip (res [ 'polygons'], res [ 'labels'])의 레이블 :
    fill_color = "파란색"
    다각형의 _polygon의 경우 :
        _polygon = np.array (_polygon). Reshape (-1, 2)
        Len (_polygon) 인 경우 <p><img  src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/000/000/174502929770135.png" class="lazy" alt="Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya" ></p><h4 id="설명"> 설명</h4>

로그인 후 복사

여기서는 이미지 처리를 위해 PIL 라이브러리에서 다양한 도구를 가져 오는 것으로 시작합니다.
우리는 이미지의 깊은 사본을 만들고 새로운 변수에 ""의 값을 저장합니다.
다음으로, 우리는 the.draw () 메소드를 호출하고 실제 이미지의 사본을 제공하여 ImagedRaw 인스턴스를 만들어 이미지를로드합니다.
다음으로, 우리는 다각형의 지퍼와 레이블 값을 반복합니다.
각각의 다각형에 대해, 우리는 _polygon이라는 이름으로 개별 다각형을 반복하여 재구성합니다. _polygon은 이제 고차원 목록입니다.
우리는 _polygon이 연결할 수 있도록 최소한 3면을 가져야한다는 것을 알고 있습니다. 따라서이 유효성 조건을 확인하여 _polygon 목록에 3 개 이상의 목록 항목이 있는지 확인합니다.
마지막으로, .polygon () 메소드를 호출하고 _polygon을 제공하여 실제 이미지의 사본 에이 _polygon을 그립니다. 그와 함께 우리는 그것을 개요 색상과 채우기 색상을 제공합니다.
Florence-2 Vision Language 모델이 해당 다각형에 대한 레이블을 생성하는 경우 .text () 함수를 호출하고 레이블을 제공하여 실제 이미지의 사본 에이 텍스트를 그릴 수도 있습니다.
마지막으로, Florence-2 모델에 의해 생성 된 모든 다각형을 그린 후, 우리는 ipython 라이브러리에서 디스플레이 함수를 호출하여 이미지를 출력합니다.

Florence-2 Vision Language Model은“두 개의 검은 타이어”에 대한 우리의 쿼리를 성공적으로 이해하고 이미지에 눈에 띄는 검은 색 타이어가있는 차량이 포함되어 있다고 추론했습니다. 이 모델은이 타이어에 대한 다각형 표현을 생성했으며,이 타이어는 파란색으로 마스킹되었습니다. 이 모델은 Microsoft 팀이 큐 레이트 한 강력한 교육 데이터로 인해 다양한 컴퓨터 비전 작업이 뛰어났습니다.

결론

Florence-2는 Microsoft Team이 처음부터 제작하고 훈련 한 비전 언어 모델입니다. 다른 비전 언어 모델과 달리 Florence-2는 객체 감지, 이미지 캡션, 문구 객체 감지, OCR, 세분화 및 이들의 조합을 포함한 다양한 컴퓨터 비전 작업을 수행합니다. 이 안내서에서는 Florence-2 Large 모델을 다운로드하는 방법과 Florence-2로 변화하는 프롬프트로 다른 컴퓨터 비전 작업을 수행하는 방법을 살펴 보았습니다.

주요 테이크 아웃

Florence-2 모델은 두 가지 크기로 제공됩니다. 하나는 0.23 억 파라미터 버전 인 기본 변형이고 다른 하나는 0.7 억 매개 변수 버전 인 큰 변형입니다.
Microsoft Team은 FLD 5B 데이터 세트에서 Florence-2 모델을 훈련 시켰습니다. FLD 5B 데이터 세트는 Microsoft 팀이 생성 한 다양한 이미지 작업을 포함하는 이미지 데이터 세트입니다.
피렌체 -2는 입력 프롬프트와 함께 이미지를 수용합니다. 프롬프트가 작업 유형을 정의하는 경우 Florence-2 Vision 모델이 수행해야합니다.
각 작업은 다른 출력을 생성하며 이러한 모든 출력은 텍스트 형식으로 생성됩니다.
Florence-2는 MIT 라이센스가있는 오픈 소스 모델이므로 상용 응용 프로그램을 위해 작업 할 수 있습니다.

자주 묻는 질문

Q1. 플로렌스 -2는 무엇입니까?

A. Florence-2는 Microsoft 팀이 개발 한 비전 언어 모델이며 0.23B 매개 변수와 0.7b 매개 변수 버전의 두 가지 크기로 출시되었습니다.

Q2. 자동 프로세서는 자동으로 프로토 톨이저와 어떻게 다릅니 까?

A. Autotokenizer는 텍스트를 토큰으로 변환하는 텍스트 데이터 만 처리 할 수 있습니다. 반면, 이미지 데이터를 포함하는 멀티 모달 모델에 대한 자동 프로세서 사전 프로세서 데이터.

Q3. FLD-5B 란 무엇입니까?

A. FLD-5B는 Microsoft 팀이 큐 레이션 한 이미지 데이터 세트입니다. 1 억 2 천 5 백만 이미지의 약 54 억 이미지 캡션이 포함되어 있습니다.

Q4. Florence-2 모델은 무엇을 출력합니까?

A. Florence-2 모델은 주어진 입력 이미지 및 입력 텍스트를 기반으로 텍스트를 출력합니다. 이 텍스트는 간단한 이미지 캡션이거나 작업이 객체 감지 또는 세분화 인 경우 경계 박스를 조정할 수 있습니다.

Q5. Florence-2 오픈 소스입니까?

A. 예. Florence-2는 MIT 라이센스에 따라 릴리스되므로 오픈 소스로 만들 수 있으며이 모델을 사용하기 위해 HuggingFace를 인증 할 필요가 없습니다.

이 기사에 표시된 미디어는 분석 Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.

위 내용은 Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7771

자바 튜토리얼

1644

Cakephp 튜토리얼

1399

라라벨 튜토리얼

1296

PHP 튜토리얼

1234

Related knowledge

창의적인 프로젝트를위한 최고의 AI 아트 발전기 (무료 & amp; 유료) Apr 02, 2025 pm 06:10 PM

이 기사는 최고의 AI 아트 생성기를 검토하여 자신의 기능, 창의적인 프로젝트에 대한 적합성 및 가치에 대해 논의합니다. Midjourney를 전문가에게 최고의 가치로 강조하고 고품질의 사용자 정의 가능한 예술에 Dall-E 2를 추천합니다.

Meta Llama 3.2- 분석 Vidhya를 시작합니다 Apr 11, 2025 pm 12:04 PM

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

최고의 AI 챗봇 비교 (Chatgpt, Gemini, Claude & amp; more) Apr 02, 2025 pm 06:09 PM

이 기사는 Chatgpt, Gemini 및 Claude와 같은 최고의 AI 챗봇을 비교하여 고유 한 기능, 사용자 정의 옵션 및 자연어 처리 및 신뢰성의 성능에 중점을 둡니다.

chatgpt 4 o를 사용할 수 있습니까? Mar 28, 2025 pm 05:29 PM

ChatGpt 4는 현재 이용 가능하고 널리 사용되며 ChatGpt 3.5와 같은 전임자와 비교하여 상황을 이해하고 일관된 응답을 생성하는 데 상당한 개선을 보여줍니다. 향후 개발에는보다 개인화 된 인터가 포함될 수 있습니다

컨텐츠 생성을 향상시키기 위해 AI를 쓰는 최고 AI 작문 Apr 02, 2025 pm 06:11 PM

이 기사는 Grammarly, Jasper, Copy.ai, Writesonic 및 Rytr와 같은 최고의 AI 작문 조수에 대해 논의하여 콘텐츠 제작을위한 독특한 기능에 중점을 둡니다. Jasper는 SEO 최적화가 뛰어나고 AI 도구는 톤 구성을 유지하는 데 도움이된다고 주장합니다.