백엔드 개발 PHP 튜토리얼 검색엔진 핵심기술_php 기초

검색엔진 핵심기술_php 기초

Jun 28, 2017 pm 03:37 PM
php 베이스 검색 엔진

웹 검색 엔진이라고 하면 대부분의 사람들은 Yahoo를 생각합니다. 실제로 야후는 인터넷 검색 시대를 열었습니다. 그러나 현재 Yahoo가 웹 검색에 사용하는 기술은 원래 Yahoo가 개발한 것이 아닙니다. 2000년 8월, 야후는 스탠포드 대학 학생들이 설립한 벤처회사인 구글(www.google.com)로부터 기술을 도입했습니다. 그 이유는 매우 간단합니다. Google의 검색 엔진은 이전에 Yahoo에서 사용했던 기술보다 더 빠르고 정확하게 필요한 정보를 검색할 수 있습니다.

 기술적으로나 자금적인 측면에서 강력하고 효율적인 검색엔진과 데이터베이스를 우리 스스로 설계하고 개발하는 것은 아마도 불가능할 것입니다. 그런데 야후가 다른 사람의 기술을 사용하고 있는데 우리도 그것을 사용할 수 있을까요? 다른 사람들이 이미 만든 검색 엔진 웹사이트는 어떻습니까?

프로그래밍 아이디어 분석

우리는 이것을 상상할 수 있습니다: 쿼리를 시뮬레이션하고, 검색 엔진 웹사이트에 해당 형식으로 검색 명령을 내린 다음, 검색 결과를 반환하고, 결과의 HTML 코드를 분석하고, 중복되는 부분을 제거합니다. 마지막으로 당사 웹사이트 페이지에 필요한 형식으로 표시됩니다.

이런 식으로 문제의 핵심은 정확하고(검색이 더 의미가 있도록), 빠르게(검색 결과를 분석하고 표시하는 데 추가 시간이 필요하기 때문에) 검색 정보를 선택해야 한다는 것입니다. , 검색 결과는 간결합니다(HTML 소스 코드 분석 및 스트리핑에 편리함). 차세대 검색 엔진인 Google의 다양한 뛰어난 기능으로 인해 검색 웹사이트가 여기에 있습니다. 여기서는 PHP를 사용하여 배경을 구현하는 방법을 보기 위한 예로 선택합니다. Google(www.google.com) 검색 및 프런트엔드 개인화 디스플레이 프로세스 처리.

먼저 구글의 쿼리 명령어 구조를 살펴보겠습니다. www.google.com 웹사이트에 접속하여 검색창에 "abcd"를 입력하고 검색 버튼을 클릭하면 브라우저의 주소 표시줄이 "http://www.google.com/search?q="로 변경되는 것을 확인할 수 있습니다. abcd&btnG=Google %CB%D1%CB%F7&hl=zh-CN&lr=", Google이 쿼리 매개변수를 전달하고 양식의 get 메소드를 통해 쿼리 명령을 제출하는 것을 볼 수 있습니다. 이 쿼리 프로세스를 시뮬레이션하기 위해 PHP의 file() 함수를 사용할 수 있습니다.

File() 함수 이해하기

  ​​구문: array file(string filename);

  반환 값은 배열이며 모든 파일을 배열 변수로 읽습니다. 여기에 있는 파일은 로컬이거나 원격일 수 있습니다. 원격 파일은 사용되는 프로토콜을 지정해야 합니다. 예: result=file("http://www.google.com/search?q=a ... mp;hl=zh-CN&lr="), 이 명령문은 "abcd"라는 단어에 대한 쿼리를 시뮬레이션합니다. Google에서는 검색 결과를 처리하고 행당 요소 형식으로 배열 변수 결과로 다시 전송합니다. 여기서 읽은 파일은 원격 파일이므로 프로토콜 이름 "http://"가 빠질 수 없습니다.

  사용자가 검색할 때 검색 문자를 입력하도록 하려면 입력 텍스트 상자와 제출 버튼을 만들고 위에서 검색된 문자 "abcd"를 변수로 바꿀 수 있습니다:
echo 'echo '' //텍스트 입력 상자 구성
echo '< ;input type="submit" value="Query">'; //쿼리 제출 버튼 생성
echo ''

if (isset( 키워드)) // 제출 후 PHP가 변수를 생성합니다. kwywords, 제출 후 다음 프로그램을 실행해야 합니다
{
urlencode(keywords); //사용자 입력 내용을 URL 인코딩합니다
result=file("http://www.google.com/search?q=". 키워드."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=")
//쿼리 문에서 변수를 바꾸고 쿼리 결과를 배열 변수에 저장 result
result_string=join(" ", result ); //$result 배열을 string으로 결합하고 각 배열 요소 사이에 공백을 사용하여 붙여넣습니다
... //추가 처리
}
?>

  위 프로그램은 이미 사용자 입력 쿼리에 따라 입력할 수 있습니다. 콘텐츠를 복사하고 반환된 결과를 문자열 변수 $result_string으로 합성합니다. 입력된 중국어 문자, 공백 및 기타 특수 문자를 정상적으로 쿼리할 수 있도록 사용자 입력을 URL 인코딩하려면 urlencode() 함수를 사용해야 합니다. 이는 또한 검색을 보장하기 위해 Google의 쿼리 명령을 최대한 현실적으로 시뮬레이션합니다. 결과의 정확성.

Google 분석

 이해를 돕기 위해 실제로 필요한 것은 검색결과의 제목이라고 가정해 보겠습니다. URL 및 소개 등 이는 간단하고 일반적인 요구 사항입니다. 이런 식으로 우리가 해야 할 일은 Google 로고, 재검색을 위한 입력 상자, 검색 결과 설명 등을 포함하여 Google 검색 결과의 머리글과 바닥글을 제거하고 원본 HTML을 제거하는 것뿐입니다. 나머지 검색 결과 항목을 원하는 형식으로 바꿉니다.

이를 위해서는 Google 검색결과의 HTML 소스코드를 주의 깊게 분석하고 패턴을 찾아야 합니다. Google 검색결과의 텍스트는 항상 소스 코드의 첫 번째

태그와 마지막에서 두 번째

태그 사이에 포함됩니다. 바로 뒤에는 및 테이블 문자가 오고, "


 다음의 모든 절차는 위 절차의 "추가 처리" 섹션에서 계속됩니다.

  result_string = strstr( result_string, "

"); //Google 헤더를 제거하기 위해 첫 번째

부터 시작하여 result_string 뒤의 문자열을 가져옵니다.
position= strpos( result_string,"

테이블 기호
result_string= substr(result_string,0, position);//첫 번째

테이블 기호 앞의 문자열을 가로채서 각주를 제거합니다

응용 프로그램 및 구현

 자, 이제 유용한 정보를 얻었습니다. HTML 소스 코드에서 남은 문제는 이 콘텐츠를 어떻게 자율적으로 표시할 것인가 하는 것입니다. 이러한 검색 결과 항목을 분석해 보면 각 항목이 매우 규칙적으로
로 구분되어 있음을 알 수 있습니다. 즉, 이 기능에 따라 각 항목이 단락으로 구분됩니다. 폭발() 함수를 사용하여 각 항목을 분할합니다:

구문: 폭발(문자열 구분 기호, 문자열 문자열);

배열을 반환하고 구분 기호로 분할된 각 작은 문자열은 배열에 저장됩니다. =explode("

", result_string); //결과를 잘라내려면 "

" 문자열을 사용하세요

 각 요소가 검색 결과 항목인 배열을 얻게 됩니다. 해야 할 일은 각 항목과 해당 HTML 표시 형식 코드를 연구한 다음 필요에 따라 바꾸는 것입니다. 그런 다음 루프를 사용하여 result_array의 각 항목을 처리합니다.
for( i=0; i {
... //각 항목을 처리합니다. 항목
}

각 항목에 대해 몇 가지 특징을 쉽게 찾을 수도 있습니다. 각 항목은 제목, 초록, 소개, 카테고리, URL 등으로 구성되고 각 부분은 줄 바꿈됩니다. 즉 every_item=explode("
", result_array[ i])

이 방법으로 배열 Every_item을 얻습니다. Every_item[0]은 제목이고, Every_item[1] 및 Every_item[2]는 두 줄의 요약입니다(every_item[3] 및 Every_item[4] 등의 헤더에 "", "< 글꼴 크기=-1 color=#6f6f6f>카테고리:< /font>" 문자는 소개 또는 카테고리입니다(일부 결과 항목에는 이 항목이 없기 때문). 헤더에 ""이 포함된 경우 URL이어야 합니다. 이러한 비교를 위해
정규식
(생략)을 자주 사용하는 경우에도 매우 편리합니다. 자체적으로 링크가 있는 제목을 포함하는 $every_item[0]으로 이 링크 속성을 수정하여 새 창에서 링크를 열도록 합니다:
echo eregi_replace(' { ... // 각 처리 첫 번째 항목을 제거하는 항목(첫 번째 항목은 제목, 이미 표시된 각 항목)... //추가 형식 수정
}

 이것은 링크 속성 및 기타 여러 표시 형식 수정, 제거 및 교체를 수정합니다. 정규 교체 eregi_replace()를 사용하여 완료할 수 있습니다.

 이 시점에서 우리는 각 검색 항목의 각 항목을 얻었고 각 항목의 형식을 마음대로 수정할 수 있으며 그 위에 아름다운 테이블을 놓을 수도 있습니다. 그러나 좋은 프로그램은 다양한 운영 환경에 적응할 수 있어야 하며 이는 예외가 아닙니다. 사실 우리는 검색 결과의 HTML 제거를 위한 프레임워크 방법에 대해서만 논의했습니다. 실제로 완벽하게 수행하려면 고려해야 할 사항이 많습니다. , 검색 결과의 총 개수, 몇 페이지로 나누어져 있는지 등을 표시합니다. 심지어 고객이 원래 웹사이트를 볼 수 없도록 '카테고리', '소개' 및 Google과 관련된 기타 코드를 제거할 수도 있습니다. 모두. 그러나 우리 모두는 HTML을 분석함으로써 이러한 내용과 요구사항을 추출할 수 있습니다. 이제 누구나 스스로 이를 수행하고 고도로 개인화된 검색 엔진을 구축할 수 있습니다.

위 내용은 검색엔진 핵심기술_php 기초의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Ubuntu 및 Debian용 PHP 8.4 설치 및 업그레이드 가이드 Ubuntu 및 Debian용 PHP 8.4 설치 및 업그레이드 가이드 Dec 24, 2024 pm 04:42 PM

PHP 8.4는 상당한 양의 기능 중단 및 제거를 통해 몇 가지 새로운 기능, 보안 개선 및 성능 개선을 제공합니다. 이 가이드에서는 Ubuntu, Debian 또는 해당 파생 제품에서 PHP 8.4를 설치하거나 PHP 8.4로 업그레이드하는 방법을 설명합니다.

이전에 몰랐던 후회되는 PHP 함수 7가지 이전에 몰랐던 후회되는 PHP 함수 7가지 Nov 13, 2024 am 09:42 AM

숙련된 PHP 개발자라면 이미 그런 일을 해왔다는 느낌을 받을 것입니다. 귀하는 상당한 수의 애플리케이션을 개발하고, 수백만 줄의 코드를 디버깅하고, 여러 스크립트를 수정하여 작업을 수행했습니다.

PHP 개발을 위해 Visual Studio Code(VS Code)를 설정하는 방법 PHP 개발을 위해 Visual Studio Code(VS Code)를 설정하는 방법 Dec 20, 2024 am 11:31 AM

VS Code라고도 알려진 Visual Studio Code는 모든 주요 운영 체제에서 사용할 수 있는 무료 소스 코드 편집기 또는 통합 개발 환경(IDE)입니다. 다양한 프로그래밍 언어에 대한 대규모 확장 모음을 통해 VS Code는

JWT (JSON Web Tokens) 및 PHP API의 사용 사례를 설명하십시오. JWT (JSON Web Tokens) 및 PHP API의 사용 사례를 설명하십시오. Apr 05, 2025 am 12:04 AM

JWT는 주로 신분증 인증 및 정보 교환을 위해 당사자간에 정보를 안전하게 전송하는 데 사용되는 JSON을 기반으로 한 개방형 표준입니다. 1. JWT는 헤더, 페이로드 및 서명의 세 부분으로 구성됩니다. 2. JWT의 작업 원칙에는 세 가지 단계가 포함됩니다. JWT 생성, JWT 확인 및 Parsing Payload. 3. PHP에서 인증에 JWT를 사용하면 JWT를 생성하고 확인할 수 있으며 사용자 역할 및 권한 정보가 고급 사용에 포함될 수 있습니다. 4. 일반적인 오류에는 서명 검증 실패, 토큰 만료 및 대형 페이로드가 포함됩니다. 디버깅 기술에는 디버깅 도구 및 로깅 사용이 포함됩니다. 5. 성능 최적화 및 모범 사례에는 적절한 시그니처 알고리즘 사용, 타당성 기간 설정 합리적,

문자열로 모음을 계산하는 PHP 프로그램 문자열로 모음을 계산하는 PHP 프로그램 Feb 07, 2025 pm 12:12 PM

문자열은 문자, 숫자 및 기호를 포함하여 일련의 문자입니다. 이 튜토리얼은 다른 방법을 사용하여 PHP의 주어진 문자열의 모음 수를 계산하는 방법을 배웁니다. 영어의 모음은 A, E, I, O, U이며 대문자 또는 소문자 일 수 있습니다. 모음이란 무엇입니까? 모음은 특정 발음을 나타내는 알파벳 문자입니다. 대문자와 소문자를 포함하여 영어에는 5 개의 모음이 있습니다. a, e, i, o, u 예 1 입력 : String = "Tutorialspoint" 출력 : 6 설명하다 문자열의 "Tutorialspoint"의 모음은 u, o, i, a, o, i입니다. 총 6 개의 위안이 있습니다

PHP에서 HTML/XML을 어떻게 구문 분석하고 처리합니까? PHP에서 HTML/XML을 어떻게 구문 분석하고 처리합니까? Feb 07, 2025 am 11:57 AM

이 튜토리얼은 PHP를 사용하여 XML 문서를 효율적으로 처리하는 방법을 보여줍니다. XML (Extensible Markup Language)은 인간의 가독성과 기계 구문 분석을 위해 설계된 다목적 텍스트 기반 마크 업 언어입니다. 일반적으로 데이터 저장 AN에 사용됩니다

PHP에서 늦은 정적 결합을 설명하십시오 (정적 : :). PHP에서 늦은 정적 결합을 설명하십시오 (정적 : :). Apr 03, 2025 am 12:04 AM

정적 바인딩 (정적 : :)는 PHP에서 늦은 정적 바인딩 (LSB)을 구현하여 클래스를 정의하는 대신 정적 컨텍스트에서 호출 클래스를 참조 할 수 있습니다. 1) 구문 분석 프로세스는 런타임에 수행됩니다. 2) 상속 관계에서 통화 클래스를 찾아보십시오. 3) 성능 오버 헤드를 가져올 수 있습니다.

php magic 방법 (__construct, __destruct, __call, __get, __set 등)이란 무엇이며 사용 사례를 제공합니까? php magic 방법 (__construct, __destruct, __call, __get, __set 등)이란 무엇이며 사용 사례를 제공합니까? Apr 03, 2025 am 12:03 AM

PHP의 마법 방법은 무엇입니까? PHP의 마법 방법은 다음과 같습니다. 1. \ _ \ _ Construct, 객체를 초기화하는 데 사용됩니다. 2. \ _ \ _ 파괴, 자원을 정리하는 데 사용됩니다. 3. \ _ \ _ 호출, 존재하지 않는 메소드 호출을 처리하십시오. 4. \ _ \ _ get, 동적 속성 액세스를 구현하십시오. 5. \ _ \ _ Set, 동적 속성 설정을 구현하십시오. 이러한 방법은 특정 상황에서 자동으로 호출되어 코드 유연성과 효율성을 향상시킵니다.

See all articles