Ist es möglich, dass der Code eine Iteration beim Web-Scraping überspringt? IndexError: Popup-Index außerhalb des gültigen Bereichs

Question

Ich habe also einen Code, der den Namen und den Preis eines Minerals aus (bisher) 14 Seiten entfernt und in einer TXT-Datei speichert. Ich habe zuerst versucht, nur Seite1 zu verwenden, dann wollte ich weitere Seiten hinzufügen, um mehr Daten zu erhalten. Aber dann greift der Code auf etwas, das er nicht sollte – zufällige Namen/Strings. Ich hatte nicht damit gerechnet, dass es dieses Exemplar ergattern würde, aber es tat es und gab diesem Exemplar den falschen Preis! Es passiert, wenn ein Mineral diesen „unerwarteten Namen“ hat und dann der gesamte Rest der Liste den falschen Preis hat. Siehe das Bild unten: Da sich diese Zeichenfolge von anderen Zeichenfolgen unterscheidet

P粉391955763 · Answer

您可以尝试下一个示例以及分页

import requests
from bs4 import BeautifulSoup

for URL in range(0,100,25):
    headers = {"User-Agent": "Mozilla/5.0"}

    soup = BeautifulSoup(requests.get(f'https://www.fabreminerals.com/search_results.php?LANG=EN&SearchTerms=&submit=Buscar&MineralSpeciment=&Country=&Locality=&PriceRange=&checkbox=enventa&First={URL}', headers=headers).text, "lxml")

    names = [ x.get_text(strip=True) for x in soup.select('table tr td font a')][:25]
    print(names)
    prices = [ x.get_text(strip=True) for x in soup.select('table tr td font:nth-child(3)')][:25]
    print(prices)

    # with open("Minerals.txt", "a+", encoding='utf-8') as file:
    #     for name, price in zip(names, prices):
    #             # print(f"{name}
{price}")
    #             # print("-" * 50)
    #             filename = str(name)+" "+str(price)+"
"
    #             split1 = filename.split(' / ')          
    #             cutted1 = split1.pop(0)
    #             split2 = cutted1.split(": ")
    #             try:
    #                 cutted2 = split2.pop(1)
    #             except IndexError:
    #                 continue
    #             two_prices = cutted2+" "+split1.pop(0)+"
"
    #             file.write(two_prices)

输出：

["NX51AH2:
'lepidolite' after Elbaite with Elbaite", "TH27AL9:
'Pearceite' with Calcite", "TFM69AN5:
'Stilbite'", 'SM90CEX:
Acanthite', 'TMA97AN5:
Acanthite', 'TB90AE8:
 Acanthite', 'TZ71AK9:
Acanthite', 'EC63G1:
Acanthite', 'MN56K9:
Acanthite', 'TF89AL3:
Acanthite (Se-bearing) with Polybasite (Se-bearing) and Calcite', 'TP66AJ8:
Acanthite (Se-bearing) with Pyrite', 'TY86AN2:
Acanthite after Polybasite', 'TA66AF6:
Acanthite with Calcite', 'JFD104AO2:
Acanthite with Calcite', 'TX36AL6:
Acanthite with Calcite', 'TA48AH1:
Acanthite with Chalcopyrite', 'EF89L9:
Acanthite with Pyrite and Calcite', 'TX89AN0:
Acanthite with Siderite and Proustite', 'EA56K0:
Acanthite with Silver', 'EC48K0:
Acanthite with Silver', '11AT12:
Acanthite, Calcite', '9EF89L9:
Acanthite, Pyrite, Calcite', 'SM75TDA:
Adamite', '2M14:
Adamite', '20MJX66:
Adamite']
['Price:€580 / US$598 / ¥84010 / AUD$890', 'Price:€220 / US$227 / ¥31860 / AUD$330', 'Price:€450 / US$464 / ¥65180 / AUD$690', 'Price:€90 / US$92 / ¥13030 / AUD$130', 'Price:€240 / US$247 / ¥34760 / AUD$370', 'Price:€540 / US$557 / 
¥78220 / AUD$830', 'Price:€580 / US$598 / ¥84010 / AUD$890', 'Price:€85 / US$87 / ¥12310 / AUD$130', 'Price:€155 / US$159 / ¥22450 / AUD$230', 'Price:€460 / US$474 / ¥66630 / AUD$700', 'Price:€1500 / US$1547 / ¥217290 / AUD$2310', 'Price:€1600 / US$1651 / ¥231770 / AUD$2460', 'Price:€160 / US$165 / ¥23170 / AUD$240', 'Price:€240 / US$247 / ¥34760 / AUD$370', 'Price:€1200 / US$1238 / ¥173830 / AUD$1850', 'Price:€290 / US$299 / ¥42000 / AUD$440', 'Price:€480 / US$495 / ¥69530 / AUD$740', 'Price:€4800 / US$4953 / ¥695320 / AUD$7400', 'Price:€150 / US$154 / ¥21720 / AUD$230', 'Price:€290 / US$299 / ¥42000 / AUD$440', 'Price:€70 / US$72 / ¥10140 / AUD$100', 'Price:€320 / US$330 / ¥46350 / AUD$490', 'Price:€75 / US$77 / ¥10860 / AUD$110', 'Price:€90 / US$92 / ¥13030 / AUD$130', 'Price:€140 / US$144 / ¥20280 / AUD$215']
['5TD76M9:
Adamite', 'MA54AE9:
Adamite (variety Cu-bearing adamite) with Calcite', 'EA11Y6:
Adamite (variety cuprian)', 'EB14Y6:
Adamite (variety cuprian)', 'MC11X8:
Adamite (variety cuprian) with Smithsonite', 'JRM10AN8:
Aegirine', 'MFA46AP3:
Aegirine with Zircon, Orthoclase and Quartz (variety smoky)', 'EM48AF8:
Alabandite with Calcite', 'MC92T6:
Alabandite with Calcite and Rhodochrosite', 'TF16AN1:
Alabandite with Rhodochrosite', 'TX17S1:
Alabandite with Rhodochrosite', 'TD34S1:
Alabandite with Rhodochrosite', '10TR46:
Almandine', 'HM90EJ:
Analcime', 'EFH36AP3:
Analcime with Natrolite, Rhodochrosite and Serandite', 'ELR67AP1:
Analcime with Quartz', 'EML88AP1:
Analcime with Quartz', 'TF87AF4:
Andorite', 'TR88AJ3:
Andorite', 'ND56AN0:
Andorite with Zinkenite', 'SM180NH:
Andradite (variety demantoid)', 'MT86AL3:
Andradite (variety demantoid) with Calcite', 'MA27AL7:
Andradite (variety demantoid) with Calcite', 'TC80TL:
Andradite (variety topazolite) with Clinochlore', 'TC85TE:
Andradite (variety topazolite) with Clinochlore']
['Price:€180 / US$185 / ¥26070 / AUD$270', 'Price:€840 / US$866 / ¥121680 / AUD$1290', 'Price:€60 / US$61 / ¥8690 / 
AUD$90', 'Price:€90 / US$92 / ¥13030 / AUD$130', 'Price:€70 / US$72 / ¥10140 / AUD$100', 'Price:€580 / US$598 / ¥84010 / AUD$890', 'Price:€1600 / US$1651 / ¥231770 / AUD$2468', 'Price:€2700 / US$2786 / ¥391120 / AUD$4160', 'Price:€740 / US$763 / ¥107190 / AUD$1140', 'Price:€110 / US$113 / ¥15930 / AUD$160', 'Price:€220 / US$227 / ¥31860 / AUD$330', 'Price:€920 / US$949 / ¥133270 / AUD$1410', 'Price:€140 / US$144 / ¥20280 / AUD$210', 'Price:€90 / US$92 / ¥13030 / AUD$130', 'Price:€130 / US$134 / ¥18830 / AUD$200', 'Price:€260 / US$268 / ¥37660 / AUD$400', 'Price:€380 / US$392 / ¥55040 / AUD$580', 'Price:€240 / US$247 / ¥34760 / AUD$370', 'Price:€390 / US$402 / ¥56490 / AUD$600', 'Price:€150 / US$154 / ¥21720 / AUD$230', 'Price:€180 / US$185 / ¥26070 / AUD$270', 'Price:€1600 / US$1651 / ¥231770 / AUD$2460', 'Price:€2200 / US$2270 / ¥318690 / AUD$3390', 'Price:€80 / US$82 / ¥11580 / AUD$120', 'Price:€85 / US$87 / ¥12310 / AUD$130']
['T29NAK3:
Andradite (variety topazolite) with Clinochlore', 'TC85TV:
Andradite (variety topazolite) with Clinochlore', 'T89GH5:
Andradite (variety topazolite) with Clinochlore', 'TQ94Q0:
Andradite (variety topazolite) with Stilbite', 'SM140TFV:
Andradite on Microcline', 'HM140NG:
Andradite with Calcite', 'GM66R9:
Andradite with Clinochlore', 'SM70TYW:
Andradite with Epidote', 'TC290TVH:
Andradite with Epidote and Microcline', 'TKX11AO7:
Andradite with Microcline', 'TC2100TEJ:
Andradite with Microcline', 'TH16AN2:
Andradite with Microcline', 'TTX66AO7:
Andradite with Microcline', 'TC2150TJL:
Andradite with Microcline', 'TQ96AN2:
Andradite with Microcline', 'TF48AF2:
Anglesite', 'MA47AL4:
Anglesite with Galena', 'LQ88AE6:
Anglesite with Galena', 'ER90AL8:
Anglesite with Galena', 'TP70AE1:
Anglesite with Galena', 'N54NAL5:
Anglesite with Galena', 'GV96R9:
Anhydrite with Calcite and Pyrite', '11TV99:
Anhydrite, Calcite', 'MG26AL4:
Anorthoroselite with Calcite', 'XM260NFF:
Aragonite']
['Price:€240 / US$247 / ¥34760 / AUD$370', 'Price:€85 / US$87 / ¥12310 / AUD$130', 'Price:€220 / US$227 / ¥31860 / AUD$330', 'Price:€980 / US$1011 / ¥141960 / AUD$1510', 'Price:€140 / US$144 / ¥20280 / AUD$210', 'Price:€140 / US$144 / ¥20280 / AUD$210', 'Price:€160 / US$165 / ¥23170 / AUD$240', 'Price:€70 / US$72 / ¥10140 / AUD$100', 'Price:€90 / US$92 / ¥13030 / AUD$130', 'Price:€70 / US$72 / ¥10140 / AUD$100', 'Price:€100 / US$103 / ¥14480 / AUD$150', 'Price:€110 / US$113 / ¥15930 / AUD$160', 'Price:€140 / US$144 / ¥20280 / AUD$210', 'Price:€150 / US$154 / ¥21720 / AUD$230', 'Price:€220 / US$227 / ¥31860 / AUD$330', 'Price:€380 / US$392 / ¥55040 / AUD$580', 'Price:€220 / US$227 / ¥31860 / AUD$330', 'Price:€360 / US$371 / ¥52140 / AUD$550', 'Price:€540 / US$557 / ¥78220 / AUD$830', 'Price:€540 / US$557 / ¥78220 / AUD$830', 'Price:€940 / US$969 / ¥136160 / AUD$1450', 'Price:€220 / US$227 / ¥31860 / AUD$330', 'Price:€460 / US$474 / ¥66630 / AUD$700', 'Price:€140 / US$144 / ¥20280 / AUD$210', 'Price:€60 / US$61 / ¥8690 / AUD$92'] 
['XM295EAR:
Aragonite', 'ETE46AP2:
Aragonite', 'EXM26AP0:
Aragonite', 'EYB26AP0:
Aragonite', 'EXE56AP2:
Aragonite', 'ETF46AP0:
Aragonite', 'XM2160ERF:
Aragonite', 'EXM46AP0:
Aragonite', 'XM2190MEX:
Aragonite', 'XM2780EFT:
Aragonite', 'EHM93AO9:
Aragonite', 'TYB37AO8:
Aragonite (variety Cu-bearing aragonite)', 'SM99AM3:
Aragonite (variety cuprian)', '1M06:
Aragonite (variety flos ferri)', 'TG69AL3:
Aragonite (variety tarnowitzite)', 'MLC96AO2:
Aragonite on Calcite', 'MLE68AO2:
Aragonite on Calcite', 'MTB66AP3:
Aragonite with Quartz (variety hematoide)', 'MXF96AP3:
Aragonite with Quartz (variety hematoide)', 'MRR47AP3:
Aragonite with Quartz (variety hematoide)', 'MTR37AP3:
Aragonite with Quartz (variety hematoide)', 'JFD193AP3:
Arfvedsonite with Microcline', 'TFX76AO7:
Arsenopyrite with Calcite, Pyrite, Sphalerite and Rhodochrosite', 'NB37AL3:
Arsenopyrite with Muscovite', 'HM220NX:
Arsenopyrite with Muscovite']
['Price:€95 / US$98 / ¥13760 / AUD$146', 'Price:€140 / US$144 / ¥20280 / AUD$210', 'Price:€140 / US$144 / ¥20280 / AUD$210', 'Price:€140 / US$144 / ¥20280 / AUD$210', 'Price:€150 / US$154 / ¥21720 / AUD$230', 'Price:€150 / US$154 / 
¥21720 / AUD$230', 'Price:€160 / US$165 / ¥23170 / AUD$246', 'Price:€160 / US$165 / ¥23170 / AUD$240', 'Price:€190 / US$196 / ¥27520 / AUD$293', 'Price:€780 / US$804 / ¥112990 / AUD$1203', 'Price:€880 / US$908 / ¥127470 / AUD$1350', 'Price:€240 / US$247 / ¥34760 / AUD$370', 'Price:€480 / US$495 / ¥69530 / AUD$740', 'Price:€100 / US$103 / ¥14480 / AUD$150', 'Price:€460 / US$474 / ¥66630 / AUD$700', 'Price:€190 / US$196 / ¥27520 / AUD$290', 'Price:€360 / US$371 
/ ¥52140 / AUD$550', 'Price:€160 / US$165 / ¥23170 / AUD$246', 'Price:€190 / US$196 / ¥27520 / AUD$293', 'Price:€230 / US$237 / ¥33310 / AUD$354', 'Price:€230 / US$237 / ¥33310 / AUD$354', 'Price:€240 / US$247 / ¥34760 / AUD$370', 'Price:€170 / US$175 / ¥24620 / AUD$260', 'Price:€220 / US$227 / ¥31860 / AUD$330', 'Price:€220 / US$227 / ¥31860 / AUD$330']

P粉677684876 · Answer

您只需使 CSS 选择器更加具体，以便仅识别直接位于字体元素内部（而不是向下几层）的链接：

soup.select("table tr td font>a")

添加进一步的条件，即链接指向单个项目而不是页面底部的下一页/上一页链接也将有所帮助：

soup.select("table tr td font>a[href*='CODE']")