PostgreSQL에서 효율적으로 유사한 문자열 찾기
소개: 대규모 데이터 세트에서 유사한 문자열을 찾으면 다음을 사용할 때 성능 문제가 발생할 수 있습니다. 전통적인 방법. 이 기사에서는 PostgreSQL의 pg_trgm 모듈을 사용하여 검색 프로세스 속도를 크게 높이는 솔루션을 제시합니다.
SET pg_trgm.similarity_threshold 및 % 연산자 사용:
귀하가 제공한 쿼리 과도한 유사성 계산으로 인해 어려움을 겪고 있습니다. 효율성을 높이려면 SET pg_trgm.similarity_threshold 구성 매개변수와 % 연산자를 활용하세요.
SET pg_trgm.similarity_threshold = 0.8; SELECT similarity(n1.name, n2.name) AS sim, n1.name, n2.name FROM names n1 JOIN names n2 ON n1.name <> n2.name AND n1.name % n2.name ORDER BY sim DESC;
이 접근 방식은 트라이그램 GiST 인덱스를 활용하여 검색 속도를 크게 높입니다.
기능 활용 인덱스:
성능을 더욱 향상하려면 다음을 사용하는 것이 좋습니다. 교차 조인 전에 가능한 일치 항목을 사전 필터링하는 기능적 인덱스입니다. 그러면 다음 쿼리에서 볼 수 있듯이 필요한 유사성 계산 수가 줄어듭니다.
CREATE FUNCTION first_char(text) RETURNS text AS $$ SELECT substring(, 1, 1); $$ LANGUAGE SQL; CREATE INDEX first_char_idx ON names (first_char(name));
SELECT similarity(n1.name, n2.name) AS sim, n1.name, n2.name FROM names n1 JOIN names n2 ON first_char(n1.name) = first_char(n2.name) AND n1.name <> n2.name ORDER BY sim DESC;
결론:
pg_trgm 모듈을 사용하면 SET pg_trgm .similarity_threshold, % 연산자 및 기능적 인덱스를 사용하면 유사한 항목을 찾는 성능을 획기적으로 향상시킬 수 있습니다. 대규모 데이터 세트의 경우에도 PostgreSQL의 문자열.
위 내용은 PostgreSQL에서 유사한 문자열을 어떻게 효율적으로 찾을 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!