뻐꾸기 필터의 보다 포괄적인 Golang 버전을 구현하는 방법
튜토리얼 칼럼에서 소개한 내용입니다. 필요한 친구들에게 도움이 되기를 바랍니다! "값이 거대한 집합에 있는지 확인"(이하 총칭하여 집합 멤버십 테스트라고 함)은 일반적인 데이터 처리 문제입니다. 과거 경험에서는 특정 오탐률이 허용되면 Bloom 필터가 첫 번째 선택이지만 이제는 더 나은 선택인 Cuckoo 필터가 있습니다. 최근 비즈니스에서는 필터를 사용해야 합니다. 검색 결과 우리 시나리오에서는 블룸 필터보다 뻐꾸기 필터가 더 비용 효율적이고 더 우수하다는 것을 알았습니다. 최종 기술 선택을 결정하기 위해 원본 논문을 읽었습니다. 나중에 뻐꾸기 필터를 사용하기로 결정했을 때 현재 GitHub의 여러 고급 구현이 거의 없다는 것을 발견했습니다. 결함이 있고 공간 활용도가 극대화되지 않아 원본 논문과 논문의 원본 C++ 구현을 참조하여 Golang 라이브러리 버전을 이식하고 최적화했습니다.
코드 주소는 여기입니다. 별표 표시, 사용, 기여 및 디버그를 환영합니다: github.com/linvon/cuckoo-filter
Cuckoo 필터
인터넷에 뻐꾸기 필터에 대한 소개 기사가 많이 있습니다. 여기 더 이상 없습니다. 소개, 주요 내용만 언급하여 다음 콘텐츠를 소개합니다자세한 내용을 알고 싶으시면 원문을 참고하시거나 제 중국어 번역 버전을 확인해 보세요
뻐꾸기 필터란 무엇인가요?
는 뻐꾸기 해시 알고리즘을 기반으로 구현된 필터입니다. 본질적으로 저장 항목의 해시 값을 저장하는 뻐꾸기 해시 테이블입니다. 블룸 필터에 대해 알고 계시다면 블룸 필터의 원리는 여러 해싱 방법을 사용하여 저장 항목의 다양한 해시를 비트 배열에 매핑하고 쿼리할 때 이러한 비트가 존재하는지 확인하는 것입니다.
뻐꾸기 필터는 저장 항목을 해시하고 해시 값에서 특정 자릿수를 가져와 배열에 저장합니다. 쿼리 시 배열에 동일한 자릿수의 해시가 있는지 확인합니다.
쿠쿠 필터를 선택하는 이유는 무엇인가요?
또한 해시 값을 저장하는데, 본질적으로 다중 비트 해시를 저장하는 것이 왜 뻐꾸기 필터가 더 나은가요?
첫째, 뻐꾸기 해시 테이블은 더 컴팩트해지기 때문에 더 많은 공간을 절약할 수 있습니다.
두 번째는 쿼리할 때 Bloom 필터는 여러 해시에 대해 다양한 해시 함수를 사용하는 반면, Cuckoo 필터는 하나의 해시만 필요하기 때문에 쿼리 효율성이 매우 높기 때문입니다
세 번째는 Cuckoo 필터가 지원한다는 것입니다 삭제는 되는데 블룸 필터는 삭제를 지원하지 않습니다
장점은 있는데 단점은 무엇인가요? Bloom 필터와 비교
- 중복 요소 삽입: 천 긴 필터는 중복 요소를 삽입할 때 효과가 없으며 기존 비트만 재설정합니다. 뻐꾸기 필터는 기존 값을 쫓아내기 때문에 반복되는 요소 삽입에는 상한이 있습니다. 뻐꾸기 필터의 삭제는 완벽하지 않습니다. 반복 삽입에는 위와 같은 제한이 있으며 삭제 시에도 관련 문제가 발생합니다. : 동일한 해시 값을 한 번만 삽입해야 삭제가 완벽합니다. 요소를 삽입하지 않고 삭제하면 실수로 삭제될 수 있습니다. 이는 요소를 여러 번 삽입하면 매번 삭제되는 것과 같은 이유입니다. 하나의 값만 삭제됩니다. 삭제하기 전에 요소가 몇 번 삽입되었는지 알아야 합니다. 또는 삭제가 실패할 때까지 루프에서 삭제를 실행해야 합니다. 장점과 단점이 모두 나열되어 있습니다. 다시 요약해 보겠습니다. 이런 종류의 집합 멤버쉽 테스트 문제의 경우 대부분의 시나리오에는 더 많은 읽기와 더 적은 쓰기가 포함되며 반복 삽입은 의미가 없습니다. 비록 뻐꾸기 필터 삭제가 완벽하지는 않지만 아무것도 없는 것보다는 낫고 쿼리와 저장도 더 좋습니다. 효율성은 대부분의 경우 더 비용 효율적인 선택이라고 말해야 합니다.
- 해시 함수 수(k): 해시 수, 2이면 충분합니다.
- 버킷 크기(b): 몇 개의 지문이 저장되어 있는지 각 버킷
- 지문 크기(f): 각 지문에 저장된 키의 해시 값 비트 수
- 필터를 100% 채울 수 없으며 최대 부하율 α가 있으며 각 항목에 할당된 저장 공간은 f/α입니다
- 전체 크기를 유지할 때 필터를 변경할 때 버킷이 클수록 부하율이 높아집니다. 즉, 공간 활용도가 높아지지만 각 버킷에 저장된 지문이 많을수록 쿼리 중 충돌 가능성이 높아집니다. 거짓양성률은 변하지 않고 버킷이 클수록 로드 계수가 높아집니다. 더 큰 지문이 필요합니다.
- k=2 해시 함수는 다음과 같습니다. 사용하면 버킷 크기 b=1(즉, 해시 테이블의 직접 매핑)일 때 부하율 α는 50%이지만 버킷 크기 b=2, 4 또는 8을 사용할 경우 84%, 95로 증가합니다. % 및 98% 각각
- 오탐률 r을 보장하려면 $2b/2 ^fleq r$을 보장해야 하며, 그러면 지문 f의 크기는 대략 $f ≥ log_2(2b/r)=log_2입니다. (1/r) + log_2(2b)$, 각 항목의 상각 비용은 $C ≤ [log_2(1 /r) + log_2(2b)]/α$
- 실험 데이터에 따르면 r>0.002일 때 . 버킷당 2개의 항목은 버킷당 4개의 항목을 사용하는 것보다 약간 더 나은 결과를 생성합니다. r이 0.00001
- 반 정렬된 버킷을 사용하는 경우 저장 공간을 다음과 같이 줄일 수 있습니다. 각 저장 항목당 1비트이지만 b=4
실용 가이드
구현 세부 사항
먼저 뻐꾸기 필터의 개념에 대해 이야기해 보겠습니다. 필터는 여러 개의 버킷으로 구성되며, 이 값은 고정된 값입니다. 자릿수가 저장됩니다.
필터에는 n개의 버킷이 있으며, 버킷 수는 저장할 항목 수에 따라 계산됩니다. 해시 알고리즘을 통해 항목이 어느 버킷에 저장되어야 하는지 계산할 수 있습니다. 또한 각 추가 해시 알고리즘은 항목에 대한 후보 버킷을 생성할 수 있으며, 반복적으로 삽입되면 현재 저장된 항목이 후보 버킷으로 삭제됩니다. .들어가세요. 이론적으로는 해시 알고리즘이 많을수록 공간 활용도가 높아지지만 실제 테스트에서는 k=2 해시 함수를 사용하면 98%의 활용률을 달성할 수 있습니다.
각 버킷에는 여러 개의 지문이 저장됩니다. 이는 버킷의 크기에 따라 동일한 버킷에 매핑될 수 있습니다. 버킷이 클수록 공간 활용도가 높아지지만, 동시에 각 쿼리에 대해 동일한 버킷에서 더 많은 지문이 스캔되므로 오탐이 발생할 확률이 높아집니다. 충돌률을 줄이기 위해 저장된 지문 수를 유지합니다.
논문에는 뻐꾸기 필터 구현에 필요한 여러 매개변수가 언급되는데 주로
논문을 자세히 읽어보세요. 5장에서 저자는 실험 데이터를 사용하여 지문을 선택하는 방법을 알려줍니다. 가장 적합한 구성 매개변수를 통해 다음과 같은 결론을 얻을 수 있습니다
위의 이론적 근거에 따라 얻은 관련 실험 데이터는 다음과 같습니다.
이런 방식으로 뻐꾸기 필터를 만들기 위해 매개변수를 선택하는 방법을 결정할 수 있습니다:
우선, 이것으로 충분합니다 충분한 공간 활용을 달성할 수 있는 두 가지 해시 함수를 사용하겠습니다. 필요한 거짓 긍정 비율에 따라 사용할 버킷 크기를 결정할 수 있습니다. 물론 b의 선택은 절대적이지 않습니다. r>0.002인 경우에도 b=4를 사용하여 반 정렬된 버킷을 활성화할 수 있습니다. 그런 다음 b를 기반으로 목표 오탐률을 달성하는 데 필요한 f의 크기를 계산하여 모든 필터 매개변수가 결정됩니다.
위의 결론을 Bloom 필터의 각 항목에 대한 $1.44log_2(1/r)$와 비교하면, half sorting이 활성화된 경우, r<0.03일 때, half sorting이 있으면 뻐꾸기 필터 공간이 더 작아진다는 것을 알 수 있습니다. 활성화되지 않은 경우 정렬하면 약 r<0.003으로 저하됩니다.
몇 가지 고급 설명
해시 알고리즘 최적화
두 개의 해시 알고리즘이 필요하다고 명시했지만 실제 구현에서는 하나의 해시 알고리즘을 사용하면 충분합니다. 대체 버킷 계산 방법의 경우 첫 번째 해시 값을 해당 위치에 저장된 지문과 XOR하여 두 번째 해시 값을 계산할 수 있습니다. 지문의 해시와 위치의 해시를 별도로 계산해야 하는 것이 걱정된다면 하나의 알고리즘을 사용하여 64비트 해시를 만들 수 있습니다. 상위 32비트는 위치를 계산하는 데 사용되고 하위 비트는 지문을 계산하는 데 32비트가 사용됩니다.
반정렬 버킷은 왜 b=4인 경우에만 사용할 수 있나요?
반정렬의 핵심은 각 지문의 4자리를 취해 b지문의 4자리 저장을 모든 가능성을 정리한 후 16진수로 표현하는 것입니다. 순서대로 위치를 인덱싱하여 해당 배열을 찾아 실제 저장된 값을 얻을 수 있습니다.
다음 함수를 통해 모든 상황 유형의 수를 계산할 수 있습니다
func getNum(base, k, b, f int, cnt *int) { for i := base; i < 1<> 1 n |= n >> 2 n |= n >> 4 n |= n >> 8 n |= n >> 16 n |= n >> 32 n++ return uint(n)}func getNumOfKindAndBit(b, f int) { cnt := 0 getNum(0, 0, b, f, &cnt) fmt.Printf("Num of kinds: %v, Num of needed bits: %v\n", cnt, math.Log2(float64(getNextPow2(uint64(cnt)))))} b=4일 때 총 3786개의 순열이 있어 4096보다 작습니다. 즉, 12비트를 사용하여 모든 순열 인덱스를 저장할 수 있습니다. , 그리고 모든 지문을 직접 저장한다면 4X4=16비트가 필요하므로 4비트가 절약됩니다. 즉, 지문당 1비트가 저장됩니다.
b가 2인 경우 절반 정렬을 활성화할지 여부에는 동일한 수의 저장된 비트가 필요하며 이는 의미가 없다는 것을 알 수 있습니다. b가 너무 크면 저장해야 하는 인덱스도 급격하게 늘어나 쿼리 성능에 큰 손실이 발생하므로 가장 비용 효율적인 옵션은 b=4입니다.
또한 4자리 지문을 저장하기 위한 인코딩 선택은 16진법으로 표현할 수 있기 때문에 저장에 편리합니다.
하프 정렬 사용 시 매개변수 선택
하프 정렬 사용 시에는 $ceil(b (f-1)/8)
f/8)$을 확인하세요. 그렇지 않으면 절반 정렬이 차지하는 공간이 동일합니다. 필터 크기 선택
총 버킷 필터의 크기는 2의 지수배여야 하므로 필터 크기를 설정할 때 $size/α ~=(<) 2^n$을 충족하도록 노력하세요. 크기는 필터가 저장하려는 데이터의 양입니다. 필요한 경우 더 작은 값을 선택해야 합니다. 필터, 목표 효과를 얻으려면 여러 필터를 사용하세요
Golang 구현
이 부분은 주로 Golang 라이브러리와 관련이 있습니다
Github에서 cuckoofilter의 golang 구현을 살펴본 후, 기존 구현에는 몇 가지 단점이 있음을 발견했습니다.
- 대부분의 라이브러리는 b와 f를 고정했습니다. 즉, 거짓양성률도 고정되어 있으며 적응성이 좋지 않습니다
- 모든 라이브러리 f는 바이트 단위이며 표현만 가능합니다. 8의 배수로 조정하면 위양성율을 조정하는 것이 불편합니다
- 모든 라이브러리는 반정렬 버킷을 구현하지 않으므로 블룸 필터에 비해 장점이 크게 줄어듭니다
자신의 시나리오에는 더 나은 공간과 맞춤형 오탐지가 필요하기 때문입니다 rate 이므로 원본 논문의 C++ 구현이 이식되었으며 주로
매개변수 조정 지원
반 정렬 버킷 지원
컴팩트한 비트 배열로 압축된 공간 및 비트 단위로 지문 저장
이진 직렬화 지원
위 내용은 뻐꾸기 필터의 보다 포괄적인 Golang 버전을 구현하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Go에서는 안전하게 파일을 읽고 쓰는 것이 중요합니다. 지침은 다음과 같습니다. 파일 권한 확인 지연을 사용하여 파일 닫기 파일 경로 유효성 검사 컨텍스트 시간 초과 사용 다음 지침을 따르면 데이터 보안과 애플리케이션의 견고성이 보장됩니다.

Go 데이터베이스 연결을 위한 연결 풀링을 구성하는 방법은 무엇입니까? 데이터베이스 연결을 생성하려면 데이터베이스/sql 패키지의 DB 유형을 사용하고, 최대 동시 연결 수를 제어하려면 MaxIdleConns를 설정하고, 연결의 최대 수명 주기를 제어하려면 ConnMaxLifetime을 설정하세요.

JSON 데이터는 gjson 라이브러리 또는 json.Unmarshal 함수를 사용하여 MySQL 데이터베이스에 저장할 수 있습니다. gjson 라이브러리는 JSON 필드를 구문 분석하는 편리한 방법을 제공하며, json.Unmarshal 함수에는 JSON 데이터를 비정렬화하기 위한 대상 유형 포인터가 필요합니다. 두 방법 모두 SQL 문을 준비하고 삽입 작업을 수행하여 데이터를 데이터베이스에 유지해야 합니다.

GoLang 프레임워크와 Go 프레임워크의 차이점은 내부 아키텍처와 외부 기능에 반영됩니다. GoLang 프레임워크는 Go 표준 라이브러리를 기반으로 하며 기능을 확장하는 반면, Go 프레임워크는 특정 목적을 달성하기 위해 독립적인 라이브러리로 구성됩니다. GoLang 프레임워크는 더 유연하고 Go 프레임워크는 사용하기 더 쉽습니다. GoLang 프레임워크는 성능 면에서 약간의 이점이 있고 Go 프레임워크는 확장성이 더 좋습니다. 사례: gin-gonic(Go 프레임워크)은 REST API를 구축하는 데 사용되고 Echo(GoLang 프레임워크)는 웹 애플리케이션을 구축하는 데 사용됩니다.

FindStringSubmatch 함수는 정규 표현식과 일치하는 첫 번째 하위 문자열을 찾습니다. 이 함수는 일치하는 하위 문자열이 포함된 조각을 반환합니다. 첫 번째 요소는 전체 일치 문자열이고 후속 요소는 개별 하위 문자열입니다. 코드 예: regexp.FindStringSubmatch(text,pattern)는 일치하는 하위 문자열의 조각을 반환합니다. 실제 사례: 이메일 주소의 도메인 이름을 일치시키는 데 사용할 수 있습니다. 예를 들어 이메일:="user@example.com", 패턴:=@([^\s]+)$를 사용하여 도메인 이름 일치를 가져옵니다. [1].

백엔드 학습 경로 : 프론트 엔드에서 백엔드 초보자로서 프론트 엔드에서 백엔드까지의 탐사 여행은 프론트 엔드 개발에서 변화하는 백엔드 초보자로서 이미 Nodejs의 기초를 가지고 있습니다.

Go에서 미리 정의된 시간대를 사용하는 단계는 다음과 같습니다. "time" 패키지를 가져옵니다. LoadLocation 함수를 통해 특정 시간대를 로드합니다. Time 객체 생성, 시간 문자열 구문 분석, 날짜 및 시간 변환 수행 등의 작업에 로드된 시간대를 사용합니다. 미리 정의된 시간대 기능의 적용을 설명하기 위해 다양한 시간대를 사용하여 날짜를 비교합니다.

Go 프레임워크 개발 FAQ: 프레임워크 선택: Gin(API), Echo(확장 가능), Beego(ORM), Iris(성능) 등 애플리케이션 요구 사항 및 개발자 선호도에 따라 다릅니다. 설치 및 사용: gomod 명령을 사용하여 프레임워크를 설치하고 가져와서 사용합니다. 데이터베이스 상호 작용: gorm과 같은 ORM 라이브러리를 사용하여 데이터베이스 연결 및 작업을 설정합니다. 인증 및 권한 부여: gin-contrib/sessions와 같은 세션 관리 및 인증 미들웨어를 사용합니다. 실제 사례: Gin 프레임워크를 사용하여 POST, GET 및 기타 기능을 제공하는 간단한 블로그 API를 구축합니다.
