Python est assez bon pour le traitement des données. Si vous souhaitez créer un robot d'exploration, Python est un bon choix. Il contient de nombreux packages de classes pré-écrits qui peuvent exécuter de nombreuses fonctions complexes tant qu'elles sont appelées.
1 Pyhton récupère le contenu de la page Web (c'est-à-dire le code source) (apprentissage recommandé : Tutoriel vidéo Python)
page = urllib2.urlopen(url) contents = page.read() #获得了整个网页的内容也就是源代码 print(contents)
url représente l'URL, le contenu représente le code source correspondant à l'URL, urllib2 est le package qui doit être utilisé, les trois lignes de code ci-dessus peuvent obtenir l'intégralité du code source de la page Web
2 Obtenez le contenu souhaité dans la page Web (obtenez d'abord le code source de la page Web, puis analysez le code source de la page Web, recherchez la balise correspondante, puis extrayez le contenu de la balise)
Prenons comme exemple le classement des films Douban
Maintenant, je dois obtenir les noms, les notes, le nombre de critiques et les liens de tous les films sur la page actuelle
#coding:utf-8 ''''' @author: jsjxy ''' import urllib2 import re from bs4 import BeautifulSoup from distutils.filelist import findall page = urllib2.urlopen('http://movie.douban.com/top250?format=text') contents = page.read() #print(contents) soup = BeautifulSoup(contents,"html.parser") print("豆瓣电影TOP250" + "\n" +" 影片名 评分 评价人数 链接 ") for tag in soup.find_all('div', class_='info'): # print tag m_name = tag.find('span', class_='title').get_text() m_rating_score = float(tag.find('span',class_='rating_num').get_text()) m_people = tag.find('div',class_="star") m_span = m_people.findAll('span') m_peoplecount = m_span[3].contents[0] m_url=tag.find('a').get('href') print( m_name+" " + str(m_rating_score) + " " + m_peoplecount + " " + m_url )
Sortie de la console , vous pouvez également l'écrire dans un fichier
Article supplémentaire sur les technologies liées à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!