Dans le processus de traitement des données, les fichiers Excel sont une source de données largement utilisée. En tant que langage de traitement et d’analyse de données, Python est très important pour pouvoir traiter des fichiers Excel. Pour le traitement de texte lors du prétraitement des données, les expressions régulières sont également un outil indispensable. Cet article présentera en détail comment utiliser les expressions régulières Python pour traiter des fichiers Excel.
1. Python utilise Excel
Les bibliothèques couramment utilisées pour lire et écrire des fichiers Excel en Python incluent openpyxl, pandas, xlwt, xlrd, etc. Ici nous utilisons principalement la bibliothèque openpyxl. openpyxl est une bibliothèque Python pour lire et écrire des fichiers Excel. Elle peut gérer les fichiers xlsx/xlsm/xltx/xltm.
Vous devez utiliser pip install openpyxl pour l'installer avant utilisation.
Lors de la lecture d'un fichier Excel, il suffit de spécifier le chemin du fichier Excel à lire et le nom de la feuille de l'opération requise, et le contenu de la feuille peut être lu en mémoire. Voici un exemple :
from openpyxl import load_workbook # 打开工作簿 wb = load_workbook(filename='example.xlsx', read_only=True) # 打开工作表 ws = wb['Sheet1'] # 读取单元格内容 cell_value = ws['A1'].value
où filename est le chemin du fichier Excel à lire, et le paramètre read_only est True pour lire le fichier en lecture seule, ce qui peut accélérer la lecture du fichier. ws représente la feuille sur laquelle opérer.
Lors de la lecture de fichiers Excel, nous utilisons généralement import pandas as pd, puis utilisons la fonction pd.read_excel() pour lire le fichier, comme indiqué ci-dessous :
import pandas as pd df = pd.read_excel('example.xlsx', sheet_name='Sheet1')
Parmi eux, le paramètre sheet_name représente la feuille à lire.
2. Expressions régulières
L'expression régulière est une expression utilisée pour faire correspondre le texte qui correspond à un modèle dans une chaîne. Elle est principalement utilisée pour traiter le texte d'une chaîne. Python fournit le module re pour implémenter les fonctions d'expression régulière.
Lors de l'utilisation d'expressions régulières en Python, nous devons faire attention aux points suivants :
Les métacaractères et symboles courants sont les suivants :
Symbole/Métacaractère | Signification |
---|---|
. | Tout personnage |
w | lettres, chiffres et traits de soulignement Ligne |
W | pas de lettres, de chiffres et de traits de soulignement |
d | chiffres |
D | non-chiffres |
s | caractères d'espacement, y compris les espaces, les tabulations, les nouvelles lignes, etc. |
caractères autres que des espaces | |
correspond au début de la chaîne | |
avec ce caractère correspond à la fin de la chaîne | |
correspond au caractère précédent 0 à plusieurs times | |
correspond au caractère précédent 1 fois ou plus | |
correspond au caractère précédent 0 ou 1 fois |