递归子文件夹搜索和文件列表
经常会遇到需要遍历多个子文件夹并根据子文件夹提取特定文件的场景他们的文件扩展名。解决此问题的一种方法是利用 Python 的内置 os.walk 函数,该函数可以递归探索目录及其内容。
但是,正如在此问题中遇到的那样,在尝试连接目录时会出现问题行为。文件的路径。 os.walk 返回的 subFolder 变量表示子文件夹列表,而不是每个文件所在的特定文件夹。
要解决此问题,正确的方法是使用 dirpath(或给定代码中的 root) ,它表示迭代的当前目录。 dirpath 值应与文件名连接起来以构造完整的文件路径。
此外,考虑其他因素也很重要,例如从递归过程中修剪某些文件夹,这可以通过检查 dn 来实现(目录名)列表。为了避免依赖字符串操作进行文件扩展名检查,您可以利用 os.path.splitext 函数。
以下是包含这些增强功能的代码的优化版本:
<code class="python">import os result = [ os.path.join(dp, f) for dp, dn, filenames in os.walk(PATH) for f in filenames if os.path.splitext(f)[1] == ".txt" ]</code>
作为替代方案,glob 是另一个强大的工具,可用于根据扩展名选择文件。下面是一个使用 glob 的示例:
<code class="python">import os from glob import glob result = [ y for x in os.walk(PATH) for y in glob(os.path.join(x[0], "*.txt")) ]</code>
对于 Python 3.4 ,Pathlib 为该任务提供了一种直观的方法:
<code class="python">from pathlib import Path result = list(Path(".").rglob("*.[tT][xX][tT]"))</code>
以上是如何使用 Python 有效地搜索和列出子文件夹中的文件?的详细内容。更多信息请关注PHP中文网其他相关文章!