마이크로소프트가 승리한다! 수십억 개의 텍스트-이미지 쌍 훈련, 다중 모달 Florence가 Azure에서 사용 가능한 무료 평가판을 시작합니다.
2021년 11월 마이크로소프트는 40개 이상의 벤치마크 작업을 휩쓴 멀티모달 비전 기본 모델 플로렌스(Florence)를 출시했으며 분류, 대상 탐지, VQA, 그림을 통한 대화, 비디오 검색, 액션 등 많은 작업에 쉽게 적용할 수 있었습니다. 인식 등 작업.
1년 반만에 피렌체가 정식으로 상업화 단계를 시작했습니다!
플로렌스는 무엇을 할 수 있나요?
최근 Microsoft 글로벌 인공 지능 최고 기술 책임자(CTO) Huang Xuedong은 Microsoft Florence 기본 모델의 공개 미리 보기 버전을 공식 발표했습니다.
Florence 모델은 수십억 개의 텍스트-이미지 쌍으로 학습되었으며 Azure 인지 비전 서비스에 통합되었습니다. "가격" 및 "성능" 측면에서 "프로덕션 환경" 요구 사항에 도달했으며 현재 무료 평가판 단계.
향상된 비전 서비스를 통해 개발자는 다양한 산업 분야에 걸쳐 시장에 바로 적용할 수 있는 최첨단 컴퓨터 비전 애플리케이션을 만들 수 있습니다. 고객은 데이터를 원활하게 디지털화, 분석하고 자연어 상호 작용으로 연결하여 이미지 및 비디오 콘텐츠에서 보다 정확한 정보를 추출하고 유해한 콘텐츠로부터 사용자를 보호하며 보안을 강화하고 사고 대응 속도를 높일 수 있습니다.
Florence의 실제 기능도 매우 강력하며 사용자는 Vision Studio에서 "즉시 사용 가능한" 기능을 경험할 수 있습니다.
경험 웹사이트: https://portal.vision.cognitive.azure.com/gallery/featured
구체적인 포함:
촘촘한 캡션(자세한 설명): 자동으로 풍부한 설명 정보 및 디자인 제안 제공 가능 접근 가능 대체 텍스트, SEO, 스마트 사진 관리 등을 통해 디지털 콘텐츠를 지원합니다.
이미지 검색: 자연어 쿼리를 사용하여 이미지와 텍스트 간의 유사성을 원활하게 측정하여 검색 추천 및 광고를 개선합니다.
배경 제거: 사람과 사물을 원래 배경에서 쉽게 분리하고 다른 배경 장면으로 대체하여 이미지의 모양과 느낌을 바꿀 수 있습니다.
모델 맞춤화: 사용 가능한 이미지 수가 적더라도 더 높은 정확도로 고유한 비즈니스 요구 사항에 맞는 맞춤형 모델을 제공하는 데 드는 비용과 시간을 줄입니다.
비디오 요약: 인간이 생각하고 쓰는 것과 동일한 직관적인 방식으로 비디오 콘텐츠를 검색하고 상호 작용합니다. 관련 콘텐츠를 찾는 데 도움이 되며 추가 메타데이터가 필요하지 않습니다.
Reddit 소비자 제품 제품 관리자인 Tiffany Ong은 Microsoft의 Vision 기술을 통해 사용자가 Reddit의 콘텐츠를 더 쉽게 발견하고 이해할 수 있다고 말했습니다.
새로 생성된 이미지 설명을 통해 사용자는 Reddit에 더 쉽게 액세스할 수 있습니다. 이미지 설명을 사용하면 사용자가 기사 검색 결과를 개선할 수 있으며, Reddit 사용자에게 사이트에서 이미지를 탐색하고, 대화에 참여하고, 궁극적으로 연결과 커뮤니티를 구축할 수 있는 더 많은 기회가 제공됩니다. 감지.
Florence는 이미지당 최대 10,000개의 태그를 생성할 수 있으므로 Reddit이 이미지의 개체 수를 더 효과적으로 제어할 수 있고 더 나은 이미지 설명을 생성하는 데 도움이 됩니다.
Microsoft 365
Microsoft는 Microsoft 데이터 센터 외에도 Microsoft 365 응용 프로그램(Teams, PowerPoint, Outlook, Word, Designer, OneDrive 포함)의 시각적 서비스 기능도 개선하고 있습니다.
이미지 분할 기능을 통해 Teams는 디지털 공간에서 혁신을 주도하고 가상 회의 경험을 새로운 차원으로 끌어올리고 있습니다.
PowerPoint, Outlook 및 Word는 자동으로 텍스트를 대체하는 이미지 설명으로 접근성을 향상시킵니다.
Microsoft Designer와 OneDrive는 향상된 이미지 설명, 이미지 검색 및 배경 생성을 통해 이미지 검색 및 편집을 단순화합니다.
Microsoft 데이터 센터는 비전 서비스를 활용하여 보안과 인프라 안정성을 향상하고 있습니다.
LinkedIn의 접근성 엔지니어링 책임자인 Jennison Asuncon은 LinkedIn의 게시물 중 40% 이상이 시각 장애가 있거나 시력이 낮은 사용자의 경우 시각적 서비스를 통해 모든 사용자가 이미지를 가질 수 있다고 말했습니다. 독서에 대한 동등한 접근권을 보장하고 온라인 대화에 참여할 수 있도록 합니다.
Azure Visual Cognitive Service를 통해 LinkedIn은 자동 이미지 설명 편집 및 대체 텍스트 지원을 제공할 수 있는데 이는 새로운 경험입니다.
저도 신났을 뿐만 아니라 제 동료들이 행사에 참석한 사진을 공유했는데 그 사진에는 LinkedIn CEO인 Ryan Roslansky가 있었습니다.
책임 있게 혁신
책임 있는 인공 지능 원칙을 검토하면 Microsoft가 세상의 접근성을 개선하기 위해 인공 지능 시스템을 개발하는 데 어떻게 전념하고 있는지 알 수 있습니다.
Microsoft는 조직이 인공 지능을 최대한 활용할 수 있도록 돕기 위해 최선을 다하고 있으며, 보다 지속 가능하고 안전하며 접근 가능한 세상을 만들기 위해 노력하는 사람들에게 기술, 리소스 및 전문 지식을 제공하는 프로젝트에 막대한 투자를 하고 있습니다.
Multimodality is the future
Microsoft와 Google을 포함한 많은 거대 기술 기업들은 인공 지능 시스템의 기능을 향상시키는 가장 좋은 방법이 "다중 모드 모델"이라고 믿고 있습니다. 모델은 언어, 이미지, 비디오 및 오디오를 동시에 이해할 수 있으며 비디오에 텍스트 설명을 추가하는 등 단일 모달 모델이 완료할 수 없는 작업을 완료할 수 있습니다.
한 모델을 사용하여 이미지를 이해하고 다른 모델을 사용하여 언어를 이해하는 등 동일한 목적을 달성하기 위해 여러 "단일 모달" 모델을 함께 묶는 것은 어떨까요?
첫 번째 이유는 다른 양식에서 제공되는 배경 정보를 사용하면 경우에 따라 다중 모드 모델이 동일한 작업에서 단일 모드 모델보다 더 나은 성능을 발휘할 수 있다는 것입니다.
예를 들어 이미지, 가격 데이터, 구매 내역을 이해하는 AI 도우미는 "가격 데이터만 이해하는" AI보다 더 나은 맞춤형 제품 추천을 제공할 수 있습니다.
그리고 계산 관점에서 보면 다중 모드 모델이 더 효율적인 경우가 많으므로 데이터 처리 속도를 높이고 백엔드 비용을 줄일 수 있습니다.
모든 기업이 비용 절감과 효율성 향상을 열망한다는 것은 의심의 여지가 없습니다.
Florence는 이미지, 비디오, 언어는 물론 이러한 양식 간의 관계를 이해할 수 있으므로 이미지와 텍스트 간의 유사성을 측정하는 등 단일 양식으로는 수행할 수 없는 일부 작업을 수행할 수 있습니다. 사진 속 개체를 분할한 다음 다른 배경에 붙여넣습니다.
거의 모든 AI 모델 훈련은 데이터 저작권 문제에 직면해 있습니다. Azure AI의 CVP인 John Montgomery는 "Florence의 훈련 데이터"에 대해 답변할 때 많은 정보를 공개하지 않았습니다. 또한 파트너의 데이터를 포함하여 "전적으로 획득한" 데이터 소스인 Montgomery는 훈련 데이터에서 잠재적으로 문제가 있는 콘텐츠를 제거하는 것도 공개 훈련 데이터 세트의 일반적인 특징이라고 말했습니다.
Montgomery는 대규모 기본 모델을 사용할 때 가장 중요한 것은 교육 데이터 세트의 품질을 보장하고 각 시각적 작업에 대한 Microsoft의 조정 모델에 대한 기반을 만드는 것이라고 믿습니다. 공정성, 적대적, 까다로운 사례에 대한 테스트를 거쳐 Azure Open AI Service 및 DALL-E와 동일한 콘텐츠 검토 서비스를 구현합니다.
향후 소비자는 Florence를 사용하여 제조 공정의 결함을 감지하고 소매점에서 셀프 체크아웃을 활성화하는 등 더 많은 작업을 수행할 수 있습니다.
그러나 Montgomery는 이러한 사용 사례에는 실제로 다중 모드 비전 모델이 필요하지 않지만 다중 모드가 프로세스에 가치 있는 것을 추가할 수 있다고 주장합니다.
Florence는 이미지와 텍스트 간의 간단하고 고품질의 번역 프로세스가 이루어지면 미지의 가능성이 있는 완전히 새로운 세계를 여는 "완전히 재검토된" 시각적 모델입니다.
고객은 크게 향상된 이미지 검색을 경험하고, 이미지 및 비전 모델은 물론 언어 및 음성과 같은 기타 모델 유형을 완전히 새로운 유형의 애플리케이션으로 훈련하고, 사용자 정의 모델의 품질을 쉽게 향상시킬 수 있습니다.
위 내용은 마이크로소프트가 승리한다! 수십억 개의 텍스트-이미지 쌍 훈련, 다중 모달 Florence가 Azure에서 사용 가능한 무료 평가판을 시작합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Bing은 Microsoft가 출시한 온라인 검색 엔진입니다. 검색 기능은 매우 강력하며 국내 버전과 해외 버전의 두 가지 입구가 있습니다. 이 두 버전의 입구는 어디에 있습니까? 국제 버전에 액세스하는 방법은 무엇입니까? 아래에서 자세한 내용을 살펴보겠습니다. Bing 중국어 버전 웹 사이트 입구: https://cn.bing.com/ Bing 국제 버전 웹 사이트 입구: https://global.bing.com/ Bing 국제 버전에 액세스하는 방법은 무엇입니까? 1. 먼저 Bing을 열려면 URL을 입력하세요: https://www.bing.com/ 2. 국내 버전과 해외 버전에 대한 옵션이 있는 것을 볼 수 있습니다. 국제 버전을 선택하고 키워드만 입력하면 됩니다.

4월 18일 뉴스: 최근 Canary 채널을 사용하는 Microsoft Edge 브라우저의 일부 사용자가 최신 버전으로 업그레이드한 후 비밀번호 자동 저장 옵션이 비활성화된 것을 발견했다고 보고했습니다. 조사 결과 이는 기능의 취소라기보다는 브라우저 업그레이드 이후의 소소한 조정인 것으로 밝혀졌습니다. Edge 브라우저를 사용하여 웹 사이트에 액세스하기 전에 사용자는 브라우저에서 웹 사이트의 로그인 비밀번호를 저장할 것인지 묻는 창을 표시한다고 보고했습니다. 저장을 선택하면 Edge는 다음 로그인 시 저장된 계정번호와 비밀번호를 자동으로 입력해 사용자에게 큰 편의성을 제공합니다. 그러나 최신 업데이트는 기본 설정을 변경하는 조정과 유사합니다. 사용자는 비밀번호를 저장하도록 선택한 다음 설정에서 저장된 계정 및 비밀번호 자동 채우기를 수동으로 켜야 합니다.

8월 14일 이 사이트의 소식에 따르면 오늘 8월 패치 화요일 이벤트 당일 마이크로소프트는 22H2와 23H2용 KB5041585 업데이트, 21H2용 KB5041592 업데이트를 포함해 윈도우 11 시스템용 누적 업데이트를 출시했다. 위 장비가 8월 누적 업데이트로 설치된 후, 본 사이트에 첨부된 버전번호 변경 사항은 다음과 같습니다. 21H2 장비 설치 후, 장비 설치 후 버전번호가 Build22000.314722H2로 증가되었습니다. Windows 1121H2용 KB5041585 업데이트의 주요 내용은 다음과 같습니다.

6월 3일자 뉴스에 따르면, 마이크로소프트는 모든 윈도우 10 사용자에게 적극적으로 전체 화면 알림을 보내 윈도우 11 운영체제로의 업그레이드를 독려하고 있다. 이 이동에는 하드웨어 구성이 새 시스템을 지원하지 않는 장치가 포함됩니다. 2015년부터 Windows 10은 거의 70%의 시장 점유율을 차지하며 Windows 운영 체제로서의 지배력을 확고히 자리 잡았습니다. 하지만 시장점유율은 82%를 훨씬 웃돌며, 2021년 출시 예정인 윈도우 11보다 시장점유율이 훨씬 높다. Windows 11이 출시된 지 거의 3년이 지났지만 시장 침투 속도는 여전히 느립니다. Microsoft는 Windows 10에 대한 기술 지원을 2025년 10월 14일 이후 종료한다고 발표했습니다.

4월 27일 이 사이트의 소식에 따르면 마이크로소프트는 이달 초 카나리아 및 개발자 채널에 윈도우 11 빌드 26100 프리뷰 버전 업데이트를 출시했는데, 이는 윈도우 1124H2 업데이트의 후보 RTM 버전이 될 것으로 예상된다. 새 버전의 주요 변경 사항은 파일 탐색기, Copilot 통합, PNG 파일 메타데이터 편집, TAR 및 7z 압축 파일 생성 등입니다. @PhantomOfEarth는 Microsoft가 TAR 및 7z 압축 파일 생성과 같은 24H2 버전(게르마늄)의 일부 기능을 23H2/22H2(니켈) 버전으로 위임했다는 사실을 발견했습니다. 다이어그램에 표시된 것처럼 Windows 11은 TAR의 기본 생성을 지원합니다.

3월 21일 뉴스에 따르면 마이크로소프트는 최근 마이크로소프트 엣지 브라우저를 업데이트하고 실용적인 '이미지 확대' 기능을 추가했다. 이제 Edge 브라우저를 사용할 때 사용자는 이미지를 마우스 오른쪽 버튼으로 클릭하기만 하면 팝업 메뉴에서 이 새로운 기능을 쉽게 찾을 수 있습니다. 더욱 편리한 점은 사용자가 이미지 위에 커서를 놓은 다음 Ctrl 키를 두 번 클릭하여 이미지 확대 기능을 빠르게 호출할 수도 있다는 것입니다. 편집자의 이해에 따르면 최근 출시된 Microsoft Edge 브라우저는 Canary 채널의 새로운 기능에 대해 테스트되었습니다. 안정적인 버전의 브라우저에서는 실용적인 "이미지 확대" 기능도 공식적으로 출시되어 사용자에게 더욱 편리한 이미지 탐색 경험을 제공합니다. 해외 과학기술 언론도 이에 주목했다.

3월 11일 이 사이트의 뉴스에 따르면 Yuki Yasuo-YuuKi_AnS 소스는 최근 X 플랫폼의 Microsoft Z1000 SSD 샘플 사진 시리즈를 공유했습니다. 라벨 정보를 통해 이 Z1000은 960GB 용량의 엔지니어링 샘플(엔지니어링 샘플)이라는 것을 알게 되었습니다. 이 제품은 2020년 5월 18일에 생산되었습니다. 전원은 DC3.3V이고 공칭 전력 소비는 15W입니다. 소식통에 따르면 NVMe1.2 프로토콜을 지원합니다. ▲Microsoft Z1000 SSD 전면 사진(라벨 있음) ▲Microsoft Z1000 SSD 전면 사진(라벨 없음) ▲Microsoft Z1000 SSD 후면 사진 ▲Microsoft Z1000 SSD 후면 사진 - 메인 컨트롤 클로즈업 참조 Yuuki Yasuho-YuuKi_An

2024년 하반기, 마이크로소프트 공식 보안 블로그는 보안 커뮤니티의 요청에 대한 응답으로 메시지를 게시했습니다. 회사는 보안 강화를 위해 2024년 하반기 출시되는 윈도우 11에서 NTLM(NTLAN Manager) 인증 프로토콜을 삭제할 계획이다. 이전 설명에 따르면 Microsoft는 이전에도 비슷한 조치를 취한 적이 있습니다. 작년 10월 12일 Microsoft는 공식 보도 자료를 통해 NTLM 인증 방법을 단계적으로 폐지하고 더 많은 기업과 사용자가 Kerberos로 전환하도록 유도하는 전환 계획을 제안했습니다. NTLM 인증을 끈 후 유선 응용 프로그램 및 서비스에 문제가 발생할 수 있는 기업을 돕기 위해 Microsoft는 IAKerb 및
