Pandas read_csv: low_memory および dtype オプション

Pandas の read_csv 関数を使用すると、「DtypeWarning: Columns ( 4、5、7、16) にはタイプが混在しています。インポート時に dtype オプションを指定するか、low_memory=False を設定してください。エラー。 low_memory オプションと dtype の関係を理解すると、この問題の解決とデータ処理の改善に役立ちます。

gt;low_memory の非推奨

low_memory オプションは非推奨としてマークされていますPandas では、効率の向上に実際のメリットが得られないためです。各列の dtype の推測は、low_memory 設定に関係なく発生するメモリを大量に使用するプロセスです。

dtypes

low_memory を使用する代わりに、明示的に指定することをお勧めします。各列の dtype を指定します。これにより、Pandas は推測を回避し、後でデータ型エラーが発生するリスクを最小限に抑えることができます。たとえば、 dtype={'user_id':int} と指定すると、user_id 列が整数データとして扱われるようになります。

Dtype の推測とメモリの問題

gt;

推測Pandas は適切な型を決定する前にデータファイル全体を分析するため、dtypes はメモリを消費します。大規模なデータセットの場合、この分析はメモリリソースを大量に消費する可能性があります。 dtype を明示的に指定すると、このオーバーヘッドがなくなります。

データ障害の例

dtype を定義すると、データの不一致を回避できます。ファイルに整数で構成される user_id 列が含まれているが、最終行に「foobar」というテキストが含まれているとします。 int の dtype が指定されている場合、データのロードは失敗します。これは、dtype を正確に指定することの重要性を強調しています。

利用可能な dtypes

Pandas は、さまざまな dtype を提供します。、float、int、bool、timedelta64[ns]、datetime64[ns]、'datetime64[ns, ] (タイムゾーン対応)、'category' (列挙型)、'period[]' (特定のアンカーを含む)期間)、'Sparse' (スパースデータ)、'Interval' (インデックス作成用)、NULL 許容整数 (Int8 ～ Int64)、および 'string' (.str 属性へのアクセスを許可)。

dtype=object を設定すると警告は抑制されますが、メモリ効率は向上しません。さらに、Unicode は numpy でオブジェクトとして表されるため、dtype=unicode の設定は無効です。