Décodage des chaînes UTF-8 codées en URL en Python
Lorsque vous travaillez avec des URL, vous pouvez rencontrer des chaînes qui ont été codées en UTF- 8 et échappé avec une citation d'URL. Pour extraire les données correctes de ces chaînes, vous devez les décoder.
Dans Python 2.7, vous pouvez utiliser urllib.unquote() pour décoder les données codées en URL. Cependant, cette méthode renvoie des octets, vous devez donc les décoder davantage :
<code class="python">from urllib import unquote url = unquote(url).decode('utf8')</code>
Dans Python 3 et supérieur, le package urllib a été divisé en urllib.request, urllib.parse et urllib.error. Pour décoder les données codées en URL, vous devez utiliser urllib.parse.unquote() :
<code class="python">from urllib.parse import unquote url = unquote(url)</code>
Cette méthode gère à la fois le codage d'URL et le décodage UTF-8, vous donnant comme résultat une chaîne Unicode.
Par exemple :
<code class="python">>>> from urllib.parse import unquote >>> url = 'example.com?title=%D0%BF%D1%80%D0%B0%D0%B2%D0%BE%D0%B2%D0%B0%D1%8F+%D0%B7%D0%B0%D1%89%D0%B8%D1%82%D0%B0' >>> unquote(url) 'example.com?title=правовая+защита'</code>
En utilisant urllib.parse.unquote(), vous pouvez facilement décoder les chaînes UTF-8 codées en URL, en vous assurant d'obtenir les données correctes.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!