악센트를 구분하지 않는 검색에 대한 PostgreSQL의 접근 방식
Microsoft SQL Server와 같은 일부 데이터베이스와 달리 PostgreSQL은 기본적으로 악센트를 구분하지 않는 데이터 정렬을 지원하지 않습니다. PostgreSQL 12에서는 대소문자와 악센트를 구분하지 않는 비결정적 ICU 데이터 정렬을 도입했지만 성능 저하와 운영 제한이 따릅니다.
PostgreSQL의 악센트 구분 없는 쿼리 전략
PostgreSQL에서 악센트를 구분하지 않고 검색하는 방법에는 여러 가지가 있습니다.
1. unaccent
모듈:
이 모듈은 문자열에서 악센트를 제거하는 unaccent()
함수를 제공합니다. 이를 통해 다음과 같은 쿼리가 가능합니다.
<code class="language-sql">SELECT * FROM users WHERE unaccent(name) = unaccent('João');</code>
그러나 unaccent()
은 IMMUTABLE이 아니므로 표현식 인덱스에 사용할 수 없으며 합자(예: 'Œ')를 확장하지 않습니다.
2. 최적화된 C 함수 래퍼:
unaccent()
의 한계를 해결하기 위한 보다 효율적인 솔루션은 IMMUTABLE C 함수 래퍼를 만드는 것입니다.
<code class="language-sql">CREATE OR REPLACE FUNCTION public.f_unaccent(text) RETURNS text LANGUAGE sql IMMUTABLE PARALLEL SAFE STRICT RETURN public.immutable_unaccent(regdictionary 'public.unaccent', );</code>
이렇게 하면 표현식 인덱스를 생성할 수 있습니다.
<code class="language-sql">CREATE INDEX users_unaccent_name_idx ON users(public.f_unaccent(name));</code>
쿼리는 래핑된 함수를 사용합니다.
<code class="language-sql">SELECT * FROM users WHERE f_unaccent(name) = f_unaccent('João');</code>
3. 패턴 일치 및 합자를 위해 pg_trgm
활용:
보다 유연한 패턴 일치 및 합자 처리를 위해 트라이그램 인덱스가 있는 pg_trgm
모듈이 강력한 솔루션을 제공합니다. 트라이그램 GIN 인덱스를 사용하면 대소문자를 구분하지 않는 검색 및 유사성 감지가 가능합니다.
<code class="language-sql">CREATE INDEX users_unaccent_name_trgm_idx ON users USING gin (f_unaccent(name) gin_trgm_ops); SELECT * FROM users WHERE f_unaccent(name) LIKE ('%' || f_unaccent('João') || '%');</code>
pg_trgm
인덱스는 표준 B-트리 인덱스보다 리소스 집약적입니다.
최적의 접근 방식을 선택하는 것은 애플리케이션의 특정 요구 사항, 인덱스 유지 관리 비용 및 합자 처리 요구 사항과 쿼리 성능의 균형을 맞추는 방식에 따라 달라집니다.
위 내용은 PostgreSQL에서 악센트를 구분하지 않는 검색을 수행하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!