1MB의 마법같은 AI가 수백만 개의 파일을 99% 정확도로 감지합니다!
웹 개발에서는 서버에 파일을 업로드하기 전에 파일 형식을 감지하는 것이 중요합니다. 이 단계는 서버와 사용자의 보안을 보장하고 악성 파일을 차단할 뿐만 아니라 업로드된 파일이 완전하고 기대치를 충족하는지 확인하여 데이터 규정 준수를 향상시킬 수 있습니다. 동시에 사용자에게 적시에 피드백과 지침을 제공함으로써 사용자 경험을 개선하고 불필요한 혼란을 피할 수도 있습니다.
아바오 형제님은 앞서 "JavaScript는 파일 형식을 어떻게 감지하나요?"라고 소개한 적이 있습니다. 이제 AI 시대에 접어들었으니 시대에 발맞춰야 합니다. 다음으로 Abao 형제는 Google의 오픈 소스 Magika[1] 도구를 사용하여 정확한 파일 형식 감지를 달성하는 방법을 소개합니다.
Pictures
Magika 소개
Magika+는 최신 딥 러닝 기술을 사용하여 정확한 탐지를 제공하는 새로운 인공 지능 파일 분류 탐지 도구입니다. 무게가 약 1MB에 불과하고 단일 CPU에서 실행되는 경우에도 밀리초 내에 정확한 파일 식별이 가능한 고도로 최적화된 맞춤형 Keras 모델을 사용합니다.
백만 개 이상의 파일과 100개 이상의 콘텐츠 유형(바이너리 및 텍스트 파일 형식 포함)에 대한 평가에서 Magika는 99% 이상의 정밀도와 재현율을 달성했습니다. Magika는 Gmail, 드라이브, 세이프 브라우징 파일을 적절한 보안 및 콘텐츠 정책 스캐너로 라우팅하여 Google 사용자를 안전하게 보호하기 위해 대규모로 사용됩니다.
Magika의 기능
- 100개 이상의 파일 형식 감지를 지원합니다.
- Python 명령줄, Python API 및 실험적인 TFJS 버전과 같은 다양한 사용 방법을 지원합니다.
- 모델이 로드된 후(일회성 오버헤드) 추론 시간은 파일당 ~5ms입니다.
- 파일 크기에 관계없이 추론 시간이 거의 일정합니다. Magika는 파일 바이트의 제한된 하위 집합만 사용합니다.
- 일괄 처리 지원: 동시에 여러 파일을 명령줄과 API로 보내는 것을 지원하며 Magika는 추론 시간을 단축하기 위해 일괄 처리를 사용합니다.
- 100개 이상의 콘텐츠 유형에 걸쳐 2,500만 개가 넘는 파일로 구성된 데이터 세트를 학습했습니다.
- 대규모 평가 후 Magika의 평균 정밀도와 재현율은 99% 이상에 도달하여 기존 방법을 능가했습니다.
- Magika는 각 콘텐츠 유형에 대한 임계값 시스템을 사용하여 모델의 예측을 "신뢰"할지 또는 "일반 텍스트 문서" 또는 "알 수 없는 바이너리 데이터"와 같은 일반 레이블을 반환할지 여부를 결정합니다.
- 오류 허용 범위를 조정하기 위해 높은 신뢰도, 중간 신뢰도, 최선의 추측이라는 세 가지 예측 모드를 지원합니다.
Magika의 성능
Pictures
성능 측면에서 Magika는 AI 모델과 대규모 교육 데이터 세트 덕분에 100개 이상의 파일 형식을 사용하는 100만 개 파일 벤치마크에서 평가할 때 다른 최신 애플리케이션보다 성능이 뛰어납니다. 약 20% 더 높습니다. 파일 유형별로 분류하면 다른 도구에서 처리하는 데 문제가 있을 수 있는 코드 파일 및 구성 파일을 포함하여 텍스트 파일의 성능이 크게 향상되었습니다.
Pictures
Magika 온라인 예제
Magika는 브라우저와 Node.js 환경을 지원하며, 웹 데모[2] 웹사이트를 방문하면 해당 기능을 체험해 볼 수 있습니다.
Pictures
Magika 빠르게 시작하기
magika 설치
npm install magikaorpnpm add magika
브라우저에서 magika 사용
import { Magika } from "magika";const file = new File(["# Hello I am a markdown file"], "hello.md");const fileBytes = new Uint8Array(await file.arrayBuffer());const magika = new Magika();await magika.load();const prediction = await magika.identifyBytes(fileBytes);console.log(prediction);
Node.js에서 magika 사용
import { readFile } from "fs/promises";import { MagikaNode as Magika } from "magika";const data = await readFile("some file");const magika = new Magika();await magika.load();const prediction = await magika.identifyBytes(data);console.log(prediction);
Mag 정보 ika 의 관련 콘텐츠인 경우 Magika에 대해 더 자세히 알고 싶으시면 Magika: AI로 구동되는 빠르고 효율적인 파일 형식 식별[3] 기사를 계속 읽어보세요.
References
[1]Magika: https://github.com/google/magika
[2]웹 데모: https://google.github.io/magika/
[3]Magika: AI 기반 빠르고 효율적인 파일 형식 식별: https://opensource.googleblog.com/2024/02/magika-ai-powered-fast-and-efficient-file-type-identification.html
위 내용은 1MB의 마법같은 AI가 수백만 개의 파일을 99% 정확도로 감지합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

PHP와 Python은 각각 고유 한 장점이 있으며 프로젝트 요구 사항에 따라 선택합니다. 1.PHP는 웹 개발, 특히 웹 사이트의 빠른 개발 및 유지 보수에 적합합니다. 2. Python은 간결한 구문을 가진 데이터 과학, 기계 학습 및 인공 지능에 적합하며 초보자에게 적합합니다.

이 안내서는 데비안 시스템에서 syslog를 사용하는 방법을 배우도록 안내합니다. Syslog는 로깅 시스템 및 응용 프로그램 로그 메시지를위한 Linux 시스템의 핵심 서비스입니다. 관리자가 시스템 활동을 모니터링하고 분석하여 문제를 신속하게 식별하고 해결하는 데 도움이됩니다. 1. syslog에 대한 기본 지식 syslog의 핵심 기능에는 다음이 포함됩니다. 로그 메시지 중앙 수집 및 관리; 다중 로그 출력 형식 및 대상 위치 (예 : 파일 또는 네트워크) 지원; 실시간 로그보기 및 필터링 기능 제공. 2. Syslog 설치 및 구성 (RSYSLOG 사용) Debian 시스템은 기본적으로 RSYSLOG를 사용합니다. 다음 명령으로 설치할 수 있습니다 : sudoaptupdatesud

데비안에서 gitlab 플러그인을 개발하려면 몇 가지 특정 단계와 지식이 필요합니다. 다음은이 과정을 시작하는 데 도움이되는 기본 안내서입니다. Gitlab을 먼저 설치하려면 Debian 시스템에 Gitlab을 설치해야합니다. Gitlab의 공식 설치 매뉴얼을 참조 할 수 있습니다. API 액세스 토큰을 얻으십시오 API 통합을 수행하기 전에 Gitlab의 API 액세스 토큰을 먼저 가져와야합니다. Gitlab 대시 보드를 열고 사용자 설정에서 "AccessTokens"옵션을 찾은 다음 새 액세스 토큰을 생성하십시오. 생성됩니다

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration
