communauté

Apprendre

Bibliothèque d'outils

Outils d'IA

Loisirs

Français

Maison > développement back-end > Tutoriel Python > Python实现抓取网页并且解析的实例

Python实现抓取网页并且解析的实例

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2016-06-06 11:33:05

original

1327 Les gens l'ont consulté

本文以实例形式讲述了Python实现抓取网页并解析的功能。主要解析问答与百度的首页。分享给大家供大家参考之用。

主要功能代码如下：

#!/usr/bin/python
#coding=utf-8

import sys 
import re
import urllib2
from urllib import urlencode
from urllib import quote
import time
maxline = 2000

wenda = re.compile("href=\"http://wenda.so.com/q/.+\&#63;src=(.+&#63;)\"")
baidu = re.compile("<a href=\"http://www.baidu.com/link\&#63;url=.+\".*&#63;>更多知道相关问题.*&#63;</a>")
f1 = open("baidupage.txt","w")
f2 = open("wendapage.txt","w")

for line in sys.stdin:
  if maxline == 0:
    break
  query = line.strip();
  time.sleep(1);
  recall_url = "http://www.so.com/s&#63;&q=" + query;
  response = urllib2.urlopen(recall_url);
  html = response.read();                                                   
  f1.write(html)
  m = wenda.search(html);
  if m:
    if m.group(1) == "110":
      print query + "\twenda\t0";
    else:
      print query + "\twenda\t1";
  else:
    print query + "\twenda\t0";
  recall_url = "http://www.baidu.com/s&#63;wd=" + query +"&ie=utf-8";
  response = urllib2.urlopen(recall_url);
  html = response.read();
  f2.write(html)
  m = baidu.search(html);
  if m:
    print query + "\tbaidu\t1";
  else:
    print query + "\tbaidu\t0";
  maxline = maxline - 1;
f1.close()
f2.close()

Copier après la connexion

希望本文所述对大家Python程序设计的学习有所帮助。

Étiquettes associées：

python 抓取网页解析

Article précédent：python的即时标记项目练习笔记 Article suivant：python中的字典详细介绍

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Comment fonctionnent les LLM: pré-formation à la formation post-formation, réseaux de neurones, hallucinations et inférence

2025-02-26 03:58:14
J'ai combiné la blockchain et l'IA pour générer de l'art. Voici ce qui s'est passé ensuite.

2025-02-26 03:38:10
Ingénierie rapide avancée: chaîne de pensée (COT)

2025-02-26 03:17:10
Génération augmentée augmentée de récupération dans SQLite

2025-02-26 02:49:09
Comment utiliser un chauffeur à propulsion LLM pour construire votre propre API Node.js

2025-02-26 01:08:13
LLMS pour le codage en 2024: prix, performance et bataille pour le meilleur

2025-02-26 00:46:10
Invitant les modèles de langue de vision

2025-02-25 23:42:08
Comment mesurer la fiabilité de la réponse d'un modèle grand

2025-02-25 22:50:13
Une illusion de la vie

2025-02-25 21:54:11
Les scientifiques vont sérieux au sujet de grands modèles de langue reflétant la pensée humaine

2025-02-25 20:45:11

Derniers numéros

python3.x - Java appelle python, le code python s'arrête automatiquement et la raison est introuvable

Depuis 1970-01-01 08:00:00

0

0

0

python - Existe-t-il des forums ou des livres pertinents sur le développement Web Python?

Depuis 1970-01-01 08:00:00

0

0

0

python - Rapport d'erreurs Ubuntu16.04 LXML

Depuis 1970-01-01 08:00:00

0

0

0

"Impossible d'installer mysql-python, erreur : mysql_config introuvable"

Depuis 1970-01-01 08:00:00

0

0

0

Comment intégrer du code Python dans HTML ?

Depuis 1970-01-01 08:00:00

0

0

0

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal