Linux でのいくつかのゼロコピーテクノロジと適用可能なシナリオについて話しましょう-Linuxの運用と保守-php.cn

ホームページ

運用・保守

Linuxの運用と保守

Linux でのいくつかのゼロコピーテクノロジと適用可能なシナリオについて話しましょう

青灯夜游

Jul 27, 2020 pm 05:40 PM

linux

Linux でのいくつかのゼロコピーテクノロジと適用可能なシナリオについて話しましょう

この記事では、主要なゼロコピーテクノロジと、Linux でゼロコピーテクノロジが適用されるシナリオについて説明します。ゼロコピーの概念を迅速に確立するために、一般的に使用されるシナリオを紹介します。

#引用

##実行時のサーバーの書き込みプログラム (Web サーバーまたはファイルサーバー) では、ファイルのダウンロードが基本的な機能です。この時点でのサーバーのタスクは次のとおりです。

接続されたソケットからサーバーのホストディスク内のファイルを変更せずに送信します。 、通常は次のコードを使用して完了します。

while((n = read(diskfd, buf, BUF_SIZE)) > 0)
    write(sockfd, buf , n);

ログイン後にコピー

基本操作ファイルの内容をディスクからバッファにループで読み取り、バッファの内容を

socket に送信します。ただし、Linux の I/O 操作はデフォルトでバッファリングされた I/O であるためです。ここで使用される 2 つの主なシステムコールは read と write ですが、オペレーティングシステムがそれらの中で何を行うかはわかりません。実際、上記の I/O 操作では、複数のデータコピーが発生しました。

アプリケーションが特定のデータにアクセスすると、オペレーティングシステムはまず、そのファイルが最近アクセスされたかどうか、およびファイルの内容がカーネルバッファにキャッシュされているかどうかを確認します。キャッシュされている場合は、オペレーティングシステムは直接読み取ります。

read によると、システムコールによって提供される buf アドレスは、カーネルバッファの内容を buf で指定されたユーザー空間バッファにコピーします。そうでない場合、オペレーティングシステムはまずディスク上のデータをカーネルバッファにコピーします。このステップは現在主に DMA を使用して送信し、その後カーネルバッファの内容をユーザーバッファにコピーします。 次に、
write システムコールはユーザーバッファの内容をネットワークスタックに関連するカーネルバッファにコピーし、最後に socket がカーネルバッファの内容を on に送信します。ネットワークカード。 ここまで言いましたが、より明確にするために写真を見たほうがよいでしょう:

Linux でのいくつかのゼロコピーテクノロジと適用可能なシナリオについて話しましょう

上の写真からわかるように、合計 4 つのデータコピーが生成されます。ハードウェアとの通信を処理するために
DMA が使用されている場合でも、CPU は依然として 2 つのデータコピーを処理する必要があります。同時に、ユーザーモードで複数のコンテキストスイッチが発生し、カーネルモードでは、間違いなく CPU の負荷が増大します。

このプロセス中、ファイルの内容には一切変更を加えなかったので、カーネル空間とユーザー空間の間でデータを往復コピーすることは間違いなく無駄であり、ゼロコピーは主にこの非効率性を解決するためのものです。

ゼロコピーテクノロジーとは何ですか?

##ゼロコピーの主なタスクは、

CPU によるストレージ間でのデータのコピーを回避することです。主な目的は、さまざまなゼロコピーテクノロジを使用して、回避 CPU は不要なコピーを減らすために大量のデータコピータスクを実行するか、この種の単純なデータ転送タスクを他のコンポーネントに実行させて、CPU を解放して他のタスクに集中させます。これにより、システムリソースをより効率的に使用できるようになります。

引用文の例に戻りましょう。データのコピー数を減らすにはどうすればよいでしょうか?明らかに焦点は、カーネル空間とユーザー空間の間で行われるデータのコピーを減らすことです。これにより、ゼロコピーの一種 (

#) も導入され、データ転送が不要になります。ユーザースペースを介して

mmap を使用する

##コピー数を減らす 1 つの方法読み取り呼び出しの代わりに mmap() を呼び出すことです:

buf = mmap(diskfd, len);
write(sockfd, buf, len);

ログイン後にコピー

アプリケーションは mmap() を呼び出し、ディスク上のデータは DMA を通じてカーネルバッファにコピーされます。カーネルバッファはアプリケーションと共有されるため、カーネルバッファの内容をユーザー空間にコピーする必要はありません。次に、アプリケーションは write() を呼び出し、オペレーティングシステムはカーネルバッファの内容を socket バッファに直接コピーします。これはすべてカーネル状態で発生します。ソケット バッファはデータをネットワークカードに送信します。 同様に、図を見ると非常に簡単です:

Linux でのいくつかのゼロコピーテクノロジと適用可能なシナリオについて話しましょう

read の代わりに mmap を使用すると、明らかに 1 つのコピーが減ります。コピーされるデータの量が多い場合、間違いなく改善されます。効率。ただし、

mmap の使用にはコストがかかります。 mmap を使用すると、いくつかの隠れた罠に遭遇する可能性があります。たとえば、プログラム map がファイルをマップしているときに、そのファイルが別のプロセスによって切り捨てられる (truncate) 場合、書き込みシステムコールは SIGBUS シグナルによって終了します。不正なアドレスです。 SIGBUS シグナルは、デフォルトでプロセスを強制終了し、coredump を生成します。この方法でサーバーが停止すると、損失が発生します。

通常我们使用以下解决方案避免这种问题：

1、为SIGBUS信号建立信号处理程序
当遇到SIGBUS信号时，信号处理程序简单地返回，write系统调用在被中断之前会返回已经写入的字节数，并且errno会被设置成success,但是这是一种糟糕的处理办法，因为你并没有解决问题的实质核心。

2、使用文件租借锁
通常我们使用这种方法，在文件描述符上使用租借锁，我们为文件向内核申请一个租借锁，当其它进程想要截断这个文件时，内核会向我们发送一个实时的RT_SIGNAL_LEASE信号，告诉我们内核正在破坏你加持在文件上的读写锁。这样在程序访问非法内存并且被SIGBUS杀死之前，你的write系统调用会被中断。write会返回已经写入的字节数，并且置errno为success。

我们应该在mmap文件之前加锁，并且在操作完文件后解锁：

if(fcntl(diskfd, F_SETSIG, RT_SIGNAL_LEASE) == -1) {
    perror("kernel lease set signal");
    return -1;
}
/* l_type can be F_RDLCK F_WRLCK  加锁*/
/* l_type can be  F_UNLCK 解锁*/
if(fcntl(diskfd, F_SETLEASE, l_type)){
    perror("kernel lease set type");
    return -1;
}

ログイン後にコピー

使用sendfile#####

从2.1版内核开始，Linux引入了sendfile来简化操作:

#include<sys>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);</sys>

ログイン後にコピー

系统调用sendfile()在代表输入文件的描述符in_fd和代表输出文件的描述符out_fd之间传送文件内容（字节）。描述符out_fd必须指向一个套接字，而in_fd指向的文件必须是可以mmap的。这些局限限制了sendfile的使用，使sendfile只能将数据从文件传递到套接字上，反之则不行。
使用sendfile不仅减少了数据拷贝的次数，还减少了上下文切换，数据传送始终只发生在kernel space。

Linux でのいくつかのゼロコピーテクノロジと適用可能なシナリオについて話しましょう

在我们调用sendfile时，如果有其它进程截断了文件会发生什么呢？假设我们没有设置任何信号处理程序，sendfile调用仅仅返回它在被中断之前已经传输的字节数，errno会被置为success。如果我们在调用sendfile之前给文件加了锁，sendfile的行为仍然和之前相同，我们还会收到RT_SIGNAL_LEASE的信号。

目前为止，我们已经减少了数据拷贝的次数了，但是仍然存在一次拷贝，就是页缓存到socket缓存的拷贝。那么能不能把这个拷贝也省略呢？

借助于硬件上的帮助，我们是可以办到的。之前我们是把页缓存的数据拷贝到socket缓存中，实际上，我们仅仅需要把缓冲区描述符传到socket缓冲区，再把数据长度传过去，这样DMA控制器直接将页缓存中的数据打包发送到网络中就可以了。

总结一下，sendfile系统调用利用DMA引擎将文件内容拷贝到内核缓冲区去，然后将带有文件位置和长度信息的缓冲区描述符添加socket缓冲区去，这一步不会将内核中的数据拷贝到socket缓冲区中，DMA引擎会将内核缓冲区的数据拷贝到协议引擎中去，避免了最后一次拷贝。

Linux でのいくつかのゼロコピーテクノロジと適用可能なシナリオについて話しましょう

不过这一种收集拷贝功能是需要硬件以及驱动程序支持的。

使用splice#####

sendfile只适用于将数据从文件拷贝到套接字上，限定了它的使用范围。Linux在2.6.17版本引入splice系统调用，用于在两个文件描述符中移动数据：

#define _GNU_SOURCE         /* See feature_test_macros(7) */
#include <fcntl.h>
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);</fcntl.h>

ログイン後にコピー

splice调用在两个文件描述符之间移动数据，而不需要数据在内核空间和用户空间来回拷贝。他从fd_in拷贝len长度的数据到fd_out，但是有一方必须是管道设备，这也是目前splice的一些局限性。flags参数有以下几种取值：

SPLICE_F_MOVE: データをコピーするのではなく、データを移動してみてください。これはカーネルに対するちょっとした注意事項です。カーネルが pipe からデータを移動できない場合、または pipe のキャッシュがフルページでない場合でも、データをコピーする必要があります。 Linux の初期実装にはいくつかの問題があったため、このオプションは 2.6.21 からは機能しなくなり、後の Linux バージョンで実装する必要があります。
** SPLICE_F_NONBLOCK** : splice 操作はブロックされません。ただし、ファイル記述子がノンブロッキング I/O 用に設定されていない場合は、splice の呼び出しがブロックされる可能性があります。
** SPLICE_F_MORE**: 後続の splice 呼び出しにはさらに多くのデータが含まれます。

スプライス呼び出しは、Linux によって提案されたパイプバッファーメカニズムを利用するため、少なくとも 1 つの記述子がパイプである必要があります。

上記のゼロコピーテクノロジはすべて、ユーザー空間とカーネル空間の間のデータのコピーを削減することによって実装されていますが、場合によっては、ユーザー空間とカーネル空間の間でデータをコピーする必要があります。現時点では、ユーザー空間とカーネル空間でのデータコピーのタイミングについてのみ作業できます。 Linux は通常、システムオーバーヘッドを削減するために copy on write(コピーオンライト) を使用します。このテクノロジは、COW と呼ばれることがよくあります。

紙面の都合上、この記事ではコピーオンライトについては詳しく紹介しません。一般的な説明は次のとおりです: 複数のプログラムが同時に同じデータにアクセスする場合、各プログラムはそのデータへのポインタを持ちます。各プログラムの観点から見ると、このデータは独立して所有されます。データの内容が変更されると、そのデータの内容はプログラム自身のアプリケーション空間にコピーされ、初めてそのデータはプログラムのプライベートデータになります。プログラムがデータを変更する必要がない場合、データを独自のアプリケーション空間にコピーする必要はありません。これにより、データのコピーが削減されます。執筆中にコピーしたコンテンツは、別の記事を書くために使用できます。。。

さらに、ゼロコピーテクノロジがいくつかあります。たとえば、従来の Linux I/O に O_DIRECT マークを追加すると、直接 I/O が可能になり、自動キャッシュと、未熟な fbufs テクノロジが必要です。この記事では、すべてのゼロコピーテクノロジをカバーしているわけではありません。一般的なテクノロジをいくつか紹介するだけです。興味がある場合は、自分で勉強してください。一般的に、成熟したサーバープロジェクトも独自のカーネルを変更し、システムの I/O 部分のデータ転送速度が向上します。

推奨チュートリアル: 「Linux 運用と保守」

以上がLinux でのいくつかのゼロコピーテクノロジと適用可能なシナリオについて話しましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7752

Java チュートリアル

1643

CakePHP チュートリアル

1398

Laravel チュートリアル

1293

PHP チュートリアル

1234

Related knowledge

VSCODEに必要なコンピューター構成 Apr 15, 2025 pm 09:48 PM

VSコードシステムの要件：オペレーティングシステム：オペレーティングシステム：Windows 10以降、MACOS 10.12以上、Linux Distributionプロセッサ：最小1.6 GHz、推奨2.0 GHz以上のメモリ：最小512 MB、推奨4 GB以上のストレージスペース：最低250 MB以上：その他の要件を推奨：安定ネットワーク接続、XORG/WAYLAND（Linux）

Linuxアーキテクチャ：5つの基本コンポーネントを発表します Apr 20, 2025 am 12:04 AM

Linuxシステムの5つの基本コンポーネントは次のとおりです。1。Kernel、2。Systemライブラリ、3。Systemユーティリティ、4。グラフィカルユーザーインターフェイス、5。アプリケーション。カーネルはハードウェアリソースを管理し、システムライブラリは事前コンパイルされた機能を提供し、システムユーティリティはシステム管理に使用され、GUIは視覚的な相互作用を提供し、アプリケーションはこれらのコンポーネントを使用して機能を実装します。

Apr 16, 2025 pm 07:39 PM

NotePadはJavaコードを直接実行することはできませんが、他のツールを使用することで実現できます。コマンドラインコンパイラ（Javac）を使用してByteCodeファイル（filename.class）を生成します。 Javaインタープリター（Java）を使用して、バイトコードを解釈し、コードを実行し、結果を出力します。

VSCODEは拡張子をインストールできません Apr 15, 2025 pm 07:18 PM

VSコード拡張機能のインストールの理由は、ネットワークの不安定性、許可不足、システム互換性の問題、VSコードバージョンが古すぎる、ウイルス対策ソフトウェアまたはファイアウォール干渉です。ネットワーク接続、許可、ログファイル、およびコードの更新、セキュリティソフトウェアの無効化、およびコードまたはコンピューターの再起動を確認することにより、問題を徐々にトラブルシューティングと解決できます。

GITの倉庫アドレスを確認する方法 Apr 17, 2025 pm 01:54 PM

gitリポジトリアドレスを表示するには、次の手順を実行します。1。コマンドラインを開き、リポジトリディレクトリに移動します。 2。「git remote -v」コマンドを実行します。 3.出力と対応するアドレスでリポジトリ名を表示します。

vscodeはMacに使用できますか Apr 15, 2025 pm 07:36 PM

VSコードはMacで利用できます。強力な拡張機能、GIT統合、ターミナル、デバッガーがあり、豊富なセットアップオプションも提供しています。ただし、特に大規模なプロジェクトまたは非常に専門的な開発の場合、コードと機能的な制限がある場合があります。

vscodeの使用方法 Apr 15, 2025 pm 11:21 PM

Visual Studio Code（VSCODE）は、Microsoftが開発したクロスプラットフォーム、オープンソース、および無料のコードエディターです。軽量、スケーラビリティ、および幅広いプログラミング言語のサポートで知られています。 VSCODEをインストールするには、公式Webサイトにアクセスして、インストーラーをダウンロードして実行してください。 VSCODEを使用する場合、新しいプロジェクトを作成し、コードを編集し、コードをデバッグし、プロジェクトをナビゲートし、VSCODEを展開し、設定を管理できます。 VSCODEは、Windows、MacOS、Linuxで利用でき、複数のプログラミング言語をサポートし、マーケットプレイスを通じてさまざまな拡張機能を提供します。その利点には、軽量、スケーラビリティ、広範な言語サポート、豊富な機能とバージョンが含まれます

vscode端子使用チュートリアル Apr 15, 2025 pm 10:09 PM

VSCODEビルトインターミナルは、エディター内でコマンドとスクリプトを実行して開発プロセスを簡素化できるようにする開発ツールです。 VSCODE端子の使用方法：ショートカットキー（CTRL/CMD）で端子を開きます。コマンドを入力するか、スクリプトを実行します。 Hotkeys（Ctrl Lなどの端子をクリアするなど）を使用します。作業ディレクトリ（CDコマンドなど）を変更します。高度な機能には、デバッグモード、自動コードスニペット完了、およびインタラクティブコマンド履歴が含まれます。

See all articles

Linux でのいくつかのゼロコピー テクノロジと適用可能なシナリオについて話しましょう

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Linux でのいくつかのゼロコピーテクノロジと適用可能なシナリオについて話しましょう