Linux のゼロコピーテクノロジの簡単な分析-Linuxの運用と保守-php.cn

基本操作ファイルの内容をディスクからバッファにループで読み取り、バッファの内容をソケットに送信します。ただし、Linux I/O 操作はデフォルトでバッファリングされた I/O になります。ここで使用される 2 つの主なシステムコールは読み取りと書き込みですが、オペレーティングシステムがそれらの中で何を行うかはわかりません。実際、上記の I/O 操作中に複数のデータコピーが発生しました。 " >基本操作ファイルの内容をディスクからバッファにループで読み取り、バッファの内容をソケットに送信します。ただし、Linux I/O 操作はデフォルトでバッファリングされた I/O になります。ここで使用される 2 つの主なシステムコールは読み取りと書き込みですが、オペレーティングシステムがそれらの中で何を行うかはわかりません。実際、上記の I/O 操作中に複数のデータコピーが発生しました。

什么是零拷贝技术（zero-copy）？" >什么是零拷贝技术（zero-copy）？

使用 mmap" >使用 mmap

使用sendfile" >使用sendfile

使用splice" >使用splice

ホームページ

運用・保守

Linuxの運用と保守

Linux のゼロコピーテクノロジの簡単な分析

Linux中文社区

Aug 04, 2023 pm 04:23 PM

linux コピー

この記事では、Linux の主要なゼロコピーテクノロジと、ゼロコピーテクノロジの適用可能なシナリオについて説明します。。ゼロコピーの概念を迅速に確立するために、一般的に使用されるシナリオを紹介します。サーバーサイドプログラム (Web サーバーまたはファイルサーバー) を作成する場合、ファイルのダウンロードは基本的な機能です。このとき、サーバーのタスクは、接続されたソケットからサーバーのホストディスクにあるファイルを変更せずに送信することであり、通常は次のコードを使用して完了します:

while((n = read(diskfd, buf, BUF_SIZE)) > 0)
    write(sockfd, buf , n);

ログイン後にコピー

基本操作ファイルの内容をディスクからバッファにループで読み取り、バッファの内容をソケットに送信します。ただし、Linux I/O 操作はデフォルトでバッファリングされた I/O になります。ここで使用される 2 つの主なシステムコールは読み取りと書き込みですが、オペレーティングシステムがそれらの中で何を行うかはわかりません。実際、上記の I/O 操作中に複数のデータコピーが発生しました。

アプリケーションが特定のデータにアクセスすると、オペレーティングシステムはまず、そのファイルが最近アクセスされたかどうか、またファイルの内容がカーネルバッファにキャッシュされているかどうかを確認します。オペレーティングシステム read システムコールによって提供される buf アドレスに直接基づいて、カーネルバッファの内容を buf で指定されたユーザー空間バッファにコピーします。そうでない場合、オペレーティングシステムはまずディスク上のデータをカーネルバッファにコピーします。このステップは現在主に DMA に依存して送信され、その後カーネルバッファの内容をユーザーバッファにコピーします。

次に、write システムコールはユーザーバッファーの内容をネットワークスタックに関連するカーネルバッファーにコピーし、最後にソケットがカーネルバッファーの内容をネットワークカードに送信します。。ここまで述べたので、より明確にするために図を見てみましょう:

データコピー

从上图中可以看出，共产生了四次数据拷贝，即使使用了DMA来处理了与硬件的通讯，CPU仍然需要处理两次数据拷贝，与此同时，在用户态与内核态也发生了多次上下文切换，无疑也加重了CPU负担。

在此过程中，我们没有对文件内容做任何修改，那么在内核空间和用户空间来回拷贝数据无疑就是一种浪费，而零拷贝主要就是为了解决这种低效性。

什么是零拷贝技术（zero-copy）？

零拷贝主要的任务就是避免CPU将数据从一块存储拷贝到另外一块存储，主要就是利用各种零拷贝技术，避免让CPU做大量的数据拷贝任务，减少不必要的拷贝，或者让别的组件来做这一类简单的数据传输任务，让CPU解脱出来专注于别的任务。这样就可以让系统资源的利用更加有效。

我们继续回到引文中的例子，我们如何减少数据拷贝的次数呢？一个很明显的着力点就是减少数据在内核空间和用户空间来回拷贝，这也引入了零拷贝的一个类型：

让数据传输不需要经过 user space。

使用 mmap

我们减少拷贝次数的一种方法是调用mmap()来代替read调用：

buf = mmap(diskfd, len);
write(sockfd, buf, len);

ログイン後にコピー

应用程序调用mmap()，磁盘上的数据会通过DMA被拷贝的内核缓冲区，接着操作系统会把这段内核缓冲区与应用程序共享，这样就不需要把内核缓冲区的内容往用户空间拷贝。应用程序再调用write(),操作系统直接将内核缓冲区的内容拷贝到socket缓冲区中，这一切都发生在内核态，最后，socket缓冲区再把数据发到网卡去。同样的，看图很简单：

Linux のゼロコピーテクノロジの簡単な分析

mmap

read の代わりに mmap を使用すると、コピーが 1 つ減ります。コピーされるデータの量が多い場合、間違いなく効率が向上します。ただし、mmap の使用にはコストがかかります。 mmap を使用すると、いくつかの隠れた落とし穴に遭遇する可能性があります。たとえば、プログラムがファイルをマップしているときに、そのファイルが別のプロセスによって切り捨てられると、書き込みシステムコールは不正なアドレスにアクセスするため、SIGBUS シグナルによって終了します。 SIGBUS シグナルはデフォルトでプロセスを強制終了し、コアダンプを生成します。この方法でサーバーが停止すると、損失が発生します。

#通常、この問題を回避するには次の解決策を使用します:

1. SIGBUS シグナルのシグナルハンドラーを作成します

SIGBUS シグナルが発生すると、シグナルハンドラーは単純に戻り、write システムコールは中断される前に書き込まれたバイト数を返し、errno は success に設定されますが、これは悪いアプローチです。問題の本当の核心に取り組んでいません。

2. ファイルリースロックを使用する

通常、ファイル記述子にリースロックを使用するには、この方法を使用します。カーネルはリースロックを適用します。他のプロセスがファイルを切り詰めようとすると、カーネルはリアルタイムの RTSIGNALLEASE シグナルを送信し、ファイルに設定された読み取り/書き込みロックをカーネルが破棄していることを知らせます。このようにして、プログラムが不正なメモリにアクセスして SIGBUS によって強制終了される前に、書き込みシステムコールが中断されます。 write は書き込まれたバイト数を返し、errno を成功に設定します。

mmap ファイルを操作する前にロックし、ファイルを操作した後にロックを解除する必要があります:

if(fcntl(diskfd, F_SETSIG, RT_SIGNAL_LEASE) == -1) {
    perror("kernel lease set signal");
return -1;
}
/* l_type can be F_RDLCK F_WRLCK  加锁*/
/* l_type can be  F_UNLCK 解锁*/
if(fcntl(diskfd, F_SETLEASE, l_type)){
    perror("kernel lease set type");
return -1;
}

ログイン後にコピー

使用sendfile

从2.1版内核开始，Linux引入了sendfile来简化操作:

#include<sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

ログイン後にコピー

系统调用sendfile()在代表输入文件的描述符infd和代表输出文件的描述符outfd之间传送文件内容（字节）。描述符outfd必须指向一个套接字，而infd指向的文件必须是可以mmap的。这些局限限制了sendfile的使用，使sendfile只能将数据从文件传递到套接字上，反之则不行。

使用sendfile不仅减少了数据拷贝的次数，还减少了上下文切换，数据传送始终只发生在kernel space。

Linux のゼロコピーテクノロジの簡単な分析

sendfile系统调用过程

在我们调用sendfile时，如果有其它进程截断了文件会发生什么呢？假设我们没有设置任何信号处理程序，sendfile调用仅仅返回它在被中断之前已经传输的字节数，errno会被置为success。如果我们在调用sendfile之前给文件加了锁，sendfile的行为仍然和之前相同，我们还会收到RTSIGNALLEASE的信号。

目前为止，我们已经减少了数据拷贝的次数了，但是仍然存在一次拷贝，就是页缓存到socket缓存的拷贝。那么能不能把这个拷贝也省略呢？

借助于硬件上的帮助，我们是可以办到的。之前我们是把页缓存的数据拷贝到socket缓存中，实际上，我们仅仅需要把缓冲区描述符传到socket缓冲区，再把数据长度传过去，这样DMA控制器直接将页缓存中的数据打包发送到网络中就可以了。

总结一下，sendfile系统调用利用DMA引擎将文件内容拷贝到内核缓冲区去，然后将带有文件位置和长度信息的缓冲区描述符添加socket缓冲区去，这一步不会将内核中的数据拷贝到socket缓冲区中，DMA引擎会将内核缓冲区的数据拷贝到协议引擎中去，避免了最后一次拷贝。

Linux のゼロコピーテクノロジの簡単な分析

带DMA的sendfile

不过这一种收集拷贝功能是需要硬件以及驱动程序支持的。

使用splice

sendfile只适用于将数据从文件拷贝到套接字上，限定了它的使用范围。Linux在2.6.17版本引入splice系统调用，用于在两个文件描述符中移动数据：

#define _GNU_SOURCE         /* See feature_test_macros(7) */
#include<fcntl.h>
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsignedint flags);

ログイン後にコピー

splice调用在两个文件描述符之间移动数据，而不需要数据在内核空间和用户空间来回拷贝。他从fdin拷贝len长度的数据到fdout，但是有一方必须是管道设备，这也是目前splice的一些局限性。flags参数有以下几种取值：

SPLICEFMOVE ：尝试去移动数据而不是拷贝数据。这仅仅是对内核的一个小提示：如果内核不能从pipe移动数据或者pipe的缓存不是一个整页面，仍然需要拷贝数据。Linux最初的实现有些问题，所以从2.6.21开始这个选项不起作用，后面的Linux版本应该会实现。
SPLICEFNONBLOCK ：splice 操作不会被阻塞。然而，如果文件描述符没有被设置为不可被阻塞方式的 I/O ，那么调用 splice 有可能仍然被阻塞。
SPLICEFMORE: 後続のスプライス呼び出しにはさらに多くのデータが含まれます。

スプライス呼び出しでは、Linux によって提案されたパイプバッファーメカニズムが使用されるため、少なくとも 1 つの記述子がパイプである必要があります。

上記のゼロコピーテクノロジはすべて、ユーザー空間とカーネル空間の間のデータのコピーを削減することによって実装されていますが、場合によっては、ユーザー空間とカーネル空間の間でデータをコピーする必要があります。現時点では、ユーザー空間とカーネル空間でのデータコピーのタイミングについてのみ作業できます。 Linux では通常、システムオーバーヘッドを削減するためにコピーオンライトが使用され、このテクノロジは COW と呼ばれることがよくあります。

紙面の都合上、この記事ではコピーオンライトについては詳しく紹介しません。一般的な説明は次のとおりです: 複数のプログラムが同時に同じデータにアクセスする場合、各プログラムはそのデータへのポインタを持ちます。各プログラムの観点からは、このデータを独立して所有します。プログラムが実行されたときのみ、データの内容が変更されると、そのデータの内容はプログラム自身のアプリケーション空間にコピーされ、初めてプログラムのプライベートデータとなります。プログラムがデータを変更する必要がない場合、データを独自のアプリケーション空間にコピーする必要はありません。これにより、データのコピーが削減されます。執筆中にコピーしたコンテンツは、別の記事を書くために使用できます。。。

さらに、ゼロコピーテクノロジもいくつかあります。たとえば、従来の Linux I/O に O_DIRECT マークを追加すると、自動キャッシュを回避して直接 I/O が可能になります。成熟した fbufs テクノロジ。この記事ではすべてのゼロコピーテクノロジをカバーしているわけではありません。いくつかの一般的なテクノロジのみを紹介します。興味がある場合は、自分で勉強してください。一般に、成熟したサーバープロジェクトでは、I/O 関連部分も変換されます。カーネル自体のデータを改善するための通信速度。

以上がLinux のゼロコピーテクノロジの簡単な分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7489

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

rootとしてmysqlにログインできません Apr 08, 2025 pm 04:54 PM

ルートとしてMySQLにログインできない主な理由は、許可の問題、構成ファイルエラー、一貫性のないパスワード、ソケットファイルの問題、またはファイアウォール傍受です。解決策には、構成ファイルのBind-Addressパラメーターが正しく構成されているかどうかを確認します。ルートユーザー許可が変更されているか削除されてリセットされているかを確認します。ケースや特殊文字を含むパスワードが正確であることを確認します。ソケットファイルの許可設定とパスを確認します。ファイアウォールがMySQLサーバーへの接続をブロックすることを確認します。

c言語条件付き編集：初心者向けの詳細なガイドへの実践的なアプリケーション Apr 04, 2025 am 10:48 AM

c言語条件付きコンパイルは、コンパイル時間条件に基づいてコードブロックを選択的にコンパイルするメカニズムです。導入方法には、#IFおよび#ELSEディレクティブを使用して、条件に基づいてコードブロックを選択します。一般的に使用される条件付き式には、STDC、_WIN32、Linuxが含まれます。実用的なケース：オペレーティングシステムに従って異なるメッセージを印刷します。システムの数字数に応じて異なるデータ型を使用します。コンパイラに応じて、異なるヘッダーファイルがサポートされています。条件付きコンパイルにより、コードの移植性と柔軟性が向上し、コンパイラ、オペレーティングシステム、CPUアーキテクチャの変更に適応できます。

Linuxの5つの基本コンポーネントは何ですか？ Apr 06, 2025 am 12:05 AM

Linuxの5つの基本コンポーネントは次のとおりです。1。カーネル、ハードウェアリソースの管理。 2。機能とサービスを提供するシステムライブラリ。 3.シェル、ユーザーがシステムと対話するインターフェイス。 4.ファイルシステム、データの保存と整理。 5。アプリケーション、システムリソースを使用して機能を実装します。

MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合（ポート占有率をチェックして構成の変更）、許可の問題（ユーザー許可を実行するサービスを確認）、構成ファイルエラー（パラメーター設定のチェック）、データディレクトリの破損（テーブルスペースの復元）、INNODBテーブルスペースの問題（IBDATA1ファイルのチェック）、プラグインロード障害（エラーログのチェック）が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

MySQLはAndroidで実行できますか Apr 08, 2025 pm 05:03 PM

MySQLはAndroidで直接実行できませんが、次の方法を使用して間接的に実装できます。Androidシステムに構築されたLightWeight Database SQLiteを使用して、別のサーバーを必要とせず、モバイルデバイスアプリケーションに非常に適したリソース使用量が少ない。 MySQLサーバーにリモートで接続し、データの読み取りと書き込みのためにネットワークを介してリモートサーバー上のMySQLデータベースに接続しますが、強力なネットワーク依存関係、セキュリティの問題、サーバーコストなどの短所があります。

特定のシステムバージョンでMySQLが報告したエラーのソリューション Apr 08, 2025 am 11:54 AM

MySQLのインストールエラーのソリューションは次のとおりです。1。システム環境を慎重に確認して、MySQL依存関係ライブラリの要件が満たされていることを確認します。異なるオペレーティングシステムとバージョンの要件は異なります。 2.エラーメッセージを慎重に読み取り、依存関係のインストールやSUDOコマンドの使用など、プロンプト（ライブラリファイルの欠落やアクセス許可など）に従って対応する測定値を取得します。 3.必要に応じて、ソースコードをインストールし、コンパイルログを慎重に確認してみてください。これには、一定量のLinuxの知識と経験が必要です。最終的に問題を解決する鍵は、システム環境とエラー情報を慎重に確認し、公式の文書を参照することです。

MySQLはダウンロード後にインストールできません Apr 08, 2025 am 11:24 AM

MySQLのインストール障害の主な理由は次のとおりです。1。許可の問題、管理者として実行するか、SUDOコマンドを使用する必要があります。 2。依存関係が欠落しており、関連する開発パッケージをインストールする必要があります。 3.ポート競合では、ポート3306を占めるプログラムを閉じるか、構成ファイルを変更する必要があります。 4.インストールパッケージが破損しているため、整合性をダウンロードして検証する必要があります。 5.環境変数は誤って構成されており、環境変数はオペレーティングシステムに従って正しく構成する必要があります。これらの問題を解決し、各ステップを慎重に確認して、MySQLを正常にインストールします。

mysqlをインストールするときに依存関係が欠落の問題を解決する方法 Apr 08, 2025 pm 12:00 PM

MySQLのインストール障害は、通常、依存関係の欠如によって引き起こされます。解決策：1。システムパッケージマネージャー（Linux APT、YUM、DNF、Windows VisualC Redistributableなど）を使用して、sudoaptinStalllibmysqlclient-devなどの欠落している依存関係ライブラリをインストールします。 2.エラー情報を慎重に確認し、複雑な依存関係を1つずつ解決します。 3.パッケージマネージャーのソースが正しく構成され、ネットワークにアクセスできることを確認します。 4. Windowsの場合は、必要なランタイムライブラリをダウンロードしてインストールします。公式文書を読んで検索エンジンを適切に使用する習慣を開発することは、問題を効果的に解決することができます。

See all articles

Linux のゼロコピー テクノロジの簡単な分析

什么是零拷贝技术（zero-copy）？

使用 mmap

使用sendfile

使用splice

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Linux のゼロコピーテクノロジの簡単な分析