데이터베이스에는 약 수십만 개의 IP 레코드가 저장되어 있으며, 레코드 세트는 다음과 같습니다.
---------- ---------- -------- -- - -------- --------- --------
| ip_end | isp_id |
---------- ---------- ------------ --------- -- --- ---- -------- -------- 0 | 16777215 | 0 | 0 | 3355447 | 0 | 0 | 0 |
---------- ---------- ------------ ----- ---- ----- ---- -------- --------
이 쿼리를 수행하려면 다음 SQL을 사용해야 합니다:
$sql = ' SELECT * FROM i_m_ip WHERE ip_begin <= $client_ip AND ip_end >= $client_ip';
?>
이러한 검색은 분명히 인덱스를 사용하지 않습니다. 즉, MySQL 쿼리 효율성을 사용하는 경우는 거의 없습니다. 초당 500회 이상 도달하기 위해 동시성 최적화를 많이 했는데, 최종 평균 쿼리 효율이 초당 200회 정도에 불과해 정말 골치 아픈 일이었습니다. 처음에는 이노센스 IP 라이브러리의 검색 방식을 사용해볼까도 생각했지만, 항상 알고리즘에 거부감이 있었고 이분법 방식이 어렵다고 생각해서 사용해보지 못했습니다. 결국 나는 이분법적인 IP 주소 검색 방법을 깨달았습니다.
위 표를 보면 IP 라이브러리는 0부터 4294967295까지 연속된 값임을 알 수 있다. 이 값을 분리하여 저장하면 수백 기가바이트의 데이터가 발생하므로 인덱스와 인덱스를 사용할 방법이 없다. 해시할 방법이 없습니다. 결국 저는 데이터베이스 검색을 포기하고 PHP를 사용하여 이러한 것들을 바이너리 저장소로 변환했습니다. IP의 시작과 끝 길이가 4바이트의 긴 정수이고, 다음 국가 ID, 지방 ID 등이 2바이트의 짧은 정수를 사용하여 저장될 수 있음을 알 수 있다. 18바이트, 총 31만 개의 데이터를 합치면 5M에 불과합니다.구체적인 IP 라이브러리 생성 코드는 다음과 같습니다.
/*
IP 파일 형식:
3741319168 3758096383 182 0 0 0 0
3758096384 377487359 9 3 0 0 0 0
3774873600 4026531839 182 0 0 0
4026531840 4278190079 182 0 0 0
4294967040 42949672 95 312 0 0 0 0
*/ 🎜>set_time_limit(0)
$handle = fopen( './ ip.txt', 'rb');
$fp = fopen("./ip.dat", 'ab')
if ($handle) {
while (!feof ($handle )) {
$buffer = fgets($handle);
$buffer = Trim($buffer)
$buffer =explore("t", $buffer)
foreach ($buffer as $key => $value) {
$buffer[$key] = (float) Trim($value)
$str = pack('L', $buffer[0] ) ;
$str .= pack('L', $buffer[1]);
$str .= pack('S', $buffer[2])
$str .= 팩( 'S', $buffer[3]);
$str .= pack('S', $buffer[4])
$str .= pack('S', $buffer[5] ) ;
$str .= pack('S', $buffer[6])
fwrite($fp, $str)
}
?
이렇게 IP가 18바이트 단위로 순서대로 배열되어 있으므로 바이너리 방식을 사용하여 IP 정보를 쉽게 검색할 수 있습니다.
function getip($ip, $fp) {
fseek($ fp, 0 );
$begin = 0;
$end = filesize('./ip.dat')
$begin_ip = implode('', fread($ fp, 4 )));
fseek($fp, $end - 14);
$end_ip = implode('', unpack('L', fread($fp, 4))); > $begin_ip = sprintf('%u', $begin_ip);
$end_ip = sprintf('%u', $end_ip)
do {
if ($end - $begin <= 18) {
fseek($fp, $begin 8);
$info = array()
$info[0] = implode('', unpack('S', fread($fp) , 2) ));
$info[1] = implode('', unpack('S', fread($fp, 2))) S', fread($fp, 2))) ;
$info[3] = implode('', unpack('S', fread($fp, 2))) ] = implode('', unpack('S', fread($fp, 2) )))
$middle_seek = ceil((($end - $begin) / 18) / 2) * 18 $begin;
fseek($fp, $middle_seek)
$middle_ip = implode('', unpack('L', fread($fp, 4)));
$middle_ip = sprintf('%u', $middle_ip)
if ($ip >= $middle_ip) {
$begin = $middle_seek;
} else {
} $end = $middle_seek; 순환 검색이므로 파일을 한 번만 열지 않도록 함수 외부에 작성합니다. 30W 행 데이터 이분법 방법은 정확한 IP 정보를 찾기 위해 최대 7회(2^7) 정도만 루프하면 됩니다. 나중에 원래는 검색 속도를 높이기 위해 ip.dat를 메모리에 넣고 싶었지만 나중에 문자열 위치 지정 기능의 효율성이 파일 포인터의 오프셋 위치 지정과 같은 크기가 아니라는 것을 발견했습니다. IP 라이브러리를 저장하기 위해 메모리를 사용합니다.
이번 구현으로 IP 검색 효율성이 거의 100배 향상되었습니다. 이는 단순히 이분법을 적용한 것에 불과합니다. 이때부터 웹 애플리케이션에서는 알고리즘이 중요하지 않다는 개념이 완전히 사라졌습니다. 사실 이를 달성하기 위해 저도 진후에게 조언을 구했습니다. 처음에는 순수 형식으로 IP 라이브러리를 생성할 수 있도록 도와달라고 요청한 후 Discuz의 IP 쿼리 기능을 사용하여 검색해 보았지만 그는 이를 거부했습니다. 마침내 내 이 실천과 학습을 만들었습니다. 때로는 자신에게 묻는 것보다 다른 사람에게 묻는 것이 더 나을 때도 있습니다.
위 내용은 광대역 IP 주소 쿼리 내용을 포함하여 광대역 IP 주소 쿼리와 IP 주소 쿼리에서의 PHP 이분법 적용을 소개합니다. PHP 튜토리얼에 관심이 있는 친구들에게 도움이 되기를 바랍니다.