지역 사회

배우다

도구 라이브러리

AI 도구

여가

한국어

집 > 백엔드 개발 > PHP 튜토리얼 > php 文章采集正则代码_PHP

php 文章采集正则代码_PHP

WBOY

풀어 주다： 2016-06-01 12:22:29

원래의

750명이 탐색했습니다.

复制代码代码如下:
//采集html
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}

//获得标题和url
$string =
getwebcontent('http://www.***.com/learn/zhunbeihuaiyun/jijibeiyun/2');
//正则匹配

获取标题和地址
preg_match_all ("/

(.*)/",$string, $out, PREG_SET_ORDER);
foreach($out as $key => $value){
$article['title'][] = $out[$key][2];
$article['link'][] = "http://www.***.com/learn/article/".$out[$key][1];
}
//根据url获取文章内容
foreach($article['link'] as $key=>$value){
$content_html = getwebcontent($article['link'][$key]);
preg_match("/

[\s|\S]*?/",$content_html,$matches);
$article[content][$key] = $matches[0];

}
//不转码还真不能保存成文件
foreach($article[title] as $key=>$value){
$article[title][$key] = iconv('utf-8', 'gbk', $value);//转码
}
//存入文件
$num = count($article['title']);
for($i=0; $ifile_put_contents("{$article[title][$i]}.txt", $article['content'][$i]);
}
?>

관련 라벨：

php

원천：php.cn

이전 기사：Php Mssql操作简单封装支持存储过程_PHP 다음 기사：使用PHP获取网络文件的实现代码_PHP

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

NullPointerException은 무엇이며 어떻게 해결합니까?

2024-10-22 09:46:29
초보자에서 코더까지: C 기초로 시작되는 여정

2024-10-13 13:53:41
PHP로 웹 개발 잠금 해제: 초보자 가이드

2024-10-12 12:15:51
C에 대한 이해: 새로운 프로그래머를 위한 명확하고 간단한 길

2024-10-11 22:47:31
코딩 잠재력 발휘: 완전 초보자를 위한 C 프로그래밍

2024-10-11 19:36:51
내면의 프로그래머를 깨워보세요: 완전 초보자를 위한 C

2024-10-11 15:50:41
C로 일상을 자동화하세요: 초보자를 위한 스크립트 및 도구

2024-10-11 15:07:41
PHP가 쉬워졌습니다: 웹 개발의 첫 번째 단계

2024-10-11 14:21:21
Python으로 무엇이든 빌드하기: 창의력을 발휘하기 위한 초보자 가이드

2024-10-11 12:59:11
코딩의 핵심: 초보자를 위한 Python의 힘 활용

2024-10-11 12:17:31

최신 이슈

URL 매개변수에서 얻은 PHP 배열이 예상대로 작동하지 않습니다. 카테고리 ID가 포함된 URL 매개변수가 있고 이를 다음과 같은 배열로 처리하려고 합니다. http://example.com?cat[]=3,9,13 PHP에서는 ...

에서 2024-04-06 22:09:02

0

1

1428

Apache에서 CustomLog 지시문을 어디에 배치해야 합니까? 저는 php:7.2-apachedocker를 사용하고 있습니다. 상태 확인 URL 로그인 액세스 로그를 비활성화해야 합니다. 이 링크를 기반으로 Customlog...

에서 2024-04-06 22:03:59

0

1

990

반환 값의 변수 형식은 무엇입니까? 저는 PHP를 처음 배우는 사람입니다. 코드 조각을 찾았습니다: if($x<time()){return[false,'error'];} 논리나 변수는 중요하지 ...

에서 2024-04-06 21:55:20

0

1

778

opentbs를 사용하여 odt 파일을 생성할 때 발생하는 문제: 동일한 키의 값이 별도의 열이 아닌 동일한 행에 표시됩니다. PHP를 사용하여 odt를 만들기 위해 OpenTbs라는 라이브러리를 사용하고 있는데, 열과 행이 동적으로 생성되기 때문에 사용하고 있습니다. 행과 열을 만드는 ...

에서 2024-04-06 20:18:18

0

1

483

루프 오버를 위해 ID별로 MySQL 결과 그룹화 mysql에 비행 데이터가 포함된 테이블이 있습니다. codeigniter3 travel_idair_idFlightDurationout_or_inflightdur...

에서 2024-04-06 17:27:56

0

1

406

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿