对 Pandas CSV 解析的“pandas.parser.CParserError:错误标记数据”进行故障排除
人们可能会遇到“pandas.parser.CParserError” :使用时标记数据错误时出错Pandas 库的 pd.read_csv 函数,表明 CSV 文件的给定行中预期的字段数与遇到的字段数之间存在差异。
错误消息意味着库预期特定行中存在两个字段 (在本例中为第 3 行),但遇到的是第 12 行。这种差异可能是由于数据格式错误造成的,例如字段中缺少值或多余逗号。
要解决此问题并继续 CSV 解析,请考虑以下方法:
利用on_bad_lines 参数:
data = pd.read_csv(path, on_bad_lines='skip')
要对无效行进行更高级的处理,请实现一个自定义可调用函数定义检测到坏行时要采取的操作。
如果您的 Pandas 版本低于 1.3.0,您可以替换 on_bad_lines带有 error_bad_lines 的参数:
data = pd.read_csv("file1.csv", error_bad_lines=False)
作为 Pandas 的替代方案,您可以探索使用 Python 中的 CSV 模块,它提供了用于解析的基本实用程序CSV 文件。然而,它可能无法提供与 Pandas 相同水平的灵活性和功能。
以上是如何解决读取 CSV 文件时 Pandas `pandas.parser.CParserError: Error tokenizing data` 错误?的详细内容。更多信息请关注PHP中文网其他相关文章!