golang で大きなファイルを効率的に処理する方法-Golang-php.cn

golang で大きなファイルを効率的に処理する方法

藏色散人

リリース： 2021-05-12 11:52:57

転載

2447 人が閲覧しました

次のチュートリアルコラムでは、golang による大きなファイルの効率的な処理_Pandas を使用して大きなファイルを分割して処理する方法を紹介します。 Pandas を使用して大きなファイルをチャンクで処理する問題: 今日、Kuaishou のユーザーデータを処理しているときに、約 600M の txt テキストに遭遇しました。sublime で開くとクラッシュしました。 pandas. read_table() で読み取るのに 2 分近くかかりましたが、最終的に開いてみると、約 3,000 万行のデータが見つかりました。まだオープンしたばかりなので、どれだけ大変かわかりません。

解決策: ドキュメントを調べました。ファイルを読み取るこのタイプの関数には 2 つのパラメーターがあります:

chunksize

、

iterator

原理は次のとおりです。ファイルデータは一度にメモリに読み込まれるのではなく、複数回読み込まれます。 1. ファイルをチャンク単位で読み取るためにチャンクサイズを指定する

read_csv と read_table には、チャンクサイズ (毎回読み取る行数) を指定し、反復可能な TextFileReader オブジェクトを返す chunksize パラメーターがあります。

table=pd.read_table(path+&#39;kuaishou.txt&#39;,sep=&#39;t&#39;,chunksize=1000000)
for df in table:
    对df处理
    #如df.drop(columns=[&#39;page&#39;,&#39;video_id&#39;],axis=1,inplace=True)
    #print(type(df),df.shape)打印看一下信息

ログイン後にコピー

ここでファイルを再度分割し、個別の処理のためにいくつかのサブファイルに分割しました (はい、to_csv にはチャンクサイズパラメーターもあります)

2. iterator=True

を指定します。

iterator=True は TextFileReader オブジェクトも返します。

reader = pd.read_table(&#39;tmp.sv&#39;, sep=&#39;t&#39;, iterator=True)
df=reader.get_chunk(10000)
#通过get_chunk(size)，返回一个size行的块
#接着同样可以对df处理

ログイン後にコピー

この側面での pandas ドキュメントの内容を見てみましょう。

以上がgolang で大きなファイルを効率的に処理する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

golang で大きなファイルを効率的に処理する方法

解決策: ドキュメントを調べました。ファイルを読み取るこのタイプの関数には 2 つのパラメーターがあります:

ここでファイルを再度分割し、個別の処理のためにいくつかのサブファイルに分割しました (はい、to_csv にはチャンクサイズ パラメーターもあります)

この側面での pandas ドキュメントの内容を見てみましょう。

ここでファイルを再度分割し、個別の処理のためにいくつかのサブファイルに分割しました (はい、to_csv にはチャンクサイズパラメーターもあります)