Le robot d'exploration Python explore tous les films de Tencent Video (code)-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Le robot d'exploration Python explore tous les films de Tencent Video (code)

不言

Oct 12, 2018 pm 03:12 PM

python

Le contenu de cet article concerne le robot d'exploration Python pour capturer tous les films (codes) de Tencent Video. Il a une certaine valeur de référence. Les amis dans le besoin peuvent s'y référer.

Un robot implémenté en python pour capturer tous les films de Tencent Video

# -*- coding: utf-8 -*-

import re

import urllib2

from bs4 import BeautifulSoup

import string, time

import pymongo

NUM     = 0         #全局变量,电影数量

m_type  = u&#39;&#39;       #全局变量,电影类型

m_site  = u&#39;qq&#39; #全局变量,电影网站
#根据指定的URL获取网页内容

def gethtml(url):

    req = urllib2.Request(url)

    response = urllib2.urlopen(req)

    html = response.read()

    return html

#从电影分类列表页面获取电影分类

def gettags(html):

    global m_type

    soup = BeautifulSoup(html)      #过滤出分类内容

    #print soup

    #<ul class="clearfix _group" gname="mi_type" gtype="1">

    tags_all = soup.find_all(&#39;ul&#39;, {&#39;class&#39; : &#39;clearfix _group&#39; , &#39;gname&#39; : &#39;mi_type&#39;})

    #print len(tags_all), tags_all

    #print str(tags_all[1]).replace(&#39;\n&#39;, &#39;&#39;)

    #<a _hot="tag.sub" class="_gtag _hotkey" href="http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html"title="动作" tvalue="0">动作</a>

    re_tags = r&#39;<a _hot=\"tag\.sub\" class=\"_gtag _hotkey\" href=\"(.+?)\" title=\"(.+?)\" tvalue=\"(.+?)\">.+?</a>&#39;

    p = re.compile(re_tags, re.DOTALL)

    tags = p.findall(str(tags_all[0]))

    if tags:

        tags_url = {}

        #print tags

        for tag in tags:

            tag_url = tag[0].decode(&#39;utf-8&#39;)

            #print tag_url

            m_type = tag[1].decode(&#39;utf-8&#39;)

            tags_url[m_type] = tag_url
    else:

            print "Not Find"

    return tags_url

#获取每个分类的页数

def get_pages(tag_url):

    tag_html = gethtml(tag_url)

    #p class="paginator

    soup = BeautifulSoup(tag_html)      #过滤出标记页面的html

    #print soup

    #<p class="mod_pagenav" id="pager">

    p_page = soup.find_all(&#39;p&#39;, {&#39;class&#39; : &#39;mod_pagenav&#39;, &#39;id&#39; : &#39;pager&#39;})

    #print p_page #len(p_page), p_page[0]

    #<a class="c_txt6" href="http://v.qq.com/list/1_2_-1_-1_1_0_24_20_0_-1_0.html" title="25"><span>25</span></a>

    re_pages = r&#39;<a class=.+?><span>(.+?)</span></a>&#39;

    p = re.compile(re_pages, re.DOTALL)

    pages = p.findall(str(p_page[0]))

    #print pages

    if len(pages) > 1:

        return pages[-2]

    else:

        return 1

def getmovielist(html):

    soup = BeautifulSoup(html)

    #<ul class="mod_list_pic_130">

    ps = soup.find_all(&#39;ul&#39;, {&#39;class&#39; : &#39;mod_list_pic_130&#39;})

    #print ps

    for p_html in ps:

        p_html = str(p_html).replace(&#39;\n&#39;, &#39;&#39;)

        #print p_html

        getmovie(p_html)

def getmovie(html):

    global NUM

    global m_type

    global m_site
    re_movie = r&#39;<li><a class=\"mod_poster_130\" href=\"(.+?)\" target=\"_blank\" title=\"(.+?)\"><img.+?</li>&#39;

    p = re.compile(re_movie, re.DOTALL)

    movies = p.findall(html)

    if movies:

        conn = pymongo.Connection(&#39;localhost&#39;, 27017)

        movie_db = conn.dianying

        playlinks = movie_db.playlinks

        #print movies

        for movie in movies:

            #print movie

            NUM += 1

            print "%s : %d" % ("=" * 70, NUM)

            values = dict(

                movie_title = movie[1],

                movie_url   = movie[0],

                movie_site      = m_site,

                movie_type      = m_type

                )

            print values

            playlinks.insert(values)

            print "_" * 70

            NUM += 1

            print "%s : %d" % ("=" * 70, NUM)

  

    #else:

    #   print "Not Find"

  

def getmovieinfo(url):

    html = gethtml(url)

    soup = BeautifulSoup(html)

  

    #pack pack_album album_cover

    ps = soup.find_all(&#39;p&#39;, {&#39;class&#39; : &#39;pack pack_album album_cover&#39;})

    #print ps[0]

  

    #<a href="http://www.tudou.com/albumplay/9NyofXc_lHI/32JqhiKJykI.html" target="new" title="《血滴子》独家纪录片" wl="1"> </a>

    re_info = r&#39;<a href=\"(.+?)\" target=\"new\" title=\"(.+?)\" wl=\".+?\"> </a>&#39;

    p_info = re.compile(re_info, re.DOTALL)

    m_info = p_info.findall(str(ps[0]))

    if m_info:

        return m_info

    else:

        print "Not find movie info"

  

    return m_info

  

  

def insertdb(movieinfo):

    global conn

    movie_db = conn.dianying_at

    movies = movie_db.movies

    movies.insert(movieinfo)

  

if __name__ == "__main__":

    global conn

  

    tags_url = "http://v.qq.com/list/1_-1_-1_-1_1_0_0_20_0_-1_0.html"

    #print tags_url

    tags_html = gethtml(tags_url)

    #print tags_html

    tag_urls = gettags(tags_html)

    #print tag_urls

  

  

    for url in tag_urls.items():

        print  str(url[1]).encode(&#39;utf-8&#39;) #,url[0]

        maxpage = int(get_pages(str(url[1]).encode(&#39;utf-8&#39;)))

        print maxpage

  

        for x in range(0, maxpage):

            #http://v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html

            m_url = str(url[1]).replace(&#39;0_20_0_-1_0.html&#39;, &#39;&#39;)

            movie_url = "%s%d_20_0_-1_0.html" % (m_url, x)

            print movie_url

            movie_html = gethtml(movie_url.encode(&#39;utf-8&#39;))

            #print movie_html

            getmovielist(movie_html)

            time.sleep(0.1)

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Repo: Comment relancer ses coéquipiers

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Comment obtenir des graines géantes

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

3 Il y a quelques semaines By DDD

R.E.P.O. Enregistrer l'emplacement du fichier: où est-il et comment le protéger?

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7345

Tutoriel Java

1627

Tutoriel CakePHP

1352

Tutoriel Laravel

1265

Tutoriel PHP

1214

Afficher plus

Related knowledge

Y a-t-il une application mobile qui peut convertir XML en PDF? Apr 02, 2025 pm 08:54 PM

Une application qui convertit le XML directement en PDF ne peut être trouvée car ce sont deux formats fondamentalement différents. XML est utilisé pour stocker des données, tandis que PDF est utilisé pour afficher des documents. Pour terminer la transformation, vous pouvez utiliser des langages de programmation et des bibliothèques telles que Python et ReportLab pour analyser les données XML et générer des documents PDF.

Comment ouvrir le format XML Apr 02, 2025 pm 09:00 PM

Utiliser la plupart des éditeurs de texte pour ouvrir des fichiers XML; Si vous avez besoin d'un affichage d'arbre plus intuitif, vous pouvez utiliser un éditeur XML, tel que Oxygen XML Editor ou XMLSPY; Si vous traitez les données XML dans un programme, vous devez utiliser un langage de programmation (tel que Python) et des bibliothèques XML (telles que XML.ETREE.ElementTree) pour analyser.

Outil de mise en forme XML recommandé Apr 02, 2025 pm 09:03 PM

Les outils de mise en forme XML peuvent taper le code en fonction des règles pour améliorer la lisibilité et la compréhension. Lors de la sélection d'un outil, faites attention aux capacités de personnalisation, en gérant des circonstances spéciales, des performances et de la facilité d'utilisation. Les types d'outils couramment utilisés incluent des outils en ligne, des plug-ins IDE et des outils de ligne de commande.

Existe-t-il un outil gratuit XML à PDF pour les téléphones mobiles? Apr 02, 2025 pm 09:12 PM

Il n'y a pas d'outil XML à PDF simple et direct sur mobile. Le processus de visualisation des données requis implique une compréhension et un rendu complexes des données, et la plupart des outils dits "gratuits" sur le marché ont une mauvaise expérience. Il est recommandé d'utiliser des outils côté informatique ou d'utiliser des services cloud, ou de développer vous-même des applications pour obtenir des effets de conversion plus fiables.

Comment convertir XML en PDF sur votre téléphone avec une qualité de haute qualité? Apr 02, 2025 pm 09:48 PM

Convertir XML en PDF avec une qualité de haute qualité sur votre téléphone mobile nécessite: analyser le XML dans le cloud et générer des PDF à l'aide d'une plate-forme informatique sans serveur. Choisissez un analyseur XML efficace et une bibliothèque de génération PDF. Gérer correctement les erreurs. Faites une utilisation complète de la puissance de cloud computing pour éviter les tâches lourdes sur votre téléphone. Ajustez la complexité en fonction des exigences, notamment le traitement des structures XML complexes, la génération de PDF de plusieurs pages et l'ajout d'images. Imprimez les informations du journal pour aider à déboguer. Optimiser les performances, sélectionner des analyseurs efficaces et des bibliothèques PDF et peut utiliser une programmation asynchrone ou des données XML prétraitées. Assurez-vous une bonne qualité de code et maintenabilité.

La vitesse de conversion est-elle rapide lors de la conversion du XML en PDF sur le téléphone mobile? Apr 02, 2025 pm 10:09 PM

La vitesse du XML mobile à PDF dépend des facteurs suivants: la complexité de la structure XML. Méthode de conversion de configuration du matériel mobile (bibliothèque, algorithme) Méthodes d'optimisation de la qualité du code (sélectionnez des bibliothèques efficaces, optimiser les algorithmes, les données de cache et utiliser le multi-threading). Dans l'ensemble, il n'y a pas de réponse absolue et elle doit être optimisée en fonction de la situation spécifique.

Comment convertir XML en PDF sur votre téléphone? Apr 02, 2025 pm 10:18 PM

Il n'est pas facile de convertir XML en PDF directement sur votre téléphone, mais il peut être réalisé à l'aide des services cloud. Il est recommandé d'utiliser une application mobile légère pour télécharger des fichiers XML et recevoir des PDF générés, et de les convertir avec des API Cloud. Les API Cloud utilisent des services informatiques sans serveur et le choix de la bonne plate-forme est crucial. La complexité, la gestion des erreurs, la sécurité et les stratégies d'optimisation doivent être prises en compte lors de la gestion de l'analyse XML et de la génération de PDF. L'ensemble du processus nécessite que l'application frontale et l'API back-end fonctionnent ensemble, et il nécessite une certaine compréhension d'une variété de technologies.

Comment modifier le contenu des commentaires dans XML Apr 02, 2025 pm 06:15 PM

Pour les petits fichiers XML, vous pouvez remplacer directement le contenu d'annotation par un éditeur de texte; Pour les fichiers volumineux, il est recommandé d'utiliser l'analyseur XML pour le modifier pour garantir l'efficacité et la précision. Soyez prudent lors de la suppression des commentaires XML, le maintien des commentaires aide généralement à coder la compréhension et la maintenance. Les conseils avancés fournissent un exemple de code Python pour modifier les commentaires à l'aide de l'analyseur XML, mais l'implémentation spécifique doit être ajustée en fonction de la bibliothèque XML utilisée. Faites attention aux problèmes d'encodage lors de la modification des fichiers XML. Il est recommandé d'utiliser le codage UTF-8 et de spécifier le format de codage.

See all articles