Node.js と Redis を使用してブルームフィルターの威力を探る-＆＃＆プレス-php.cn

GETBIT

结论

ホームページ

CMS チュートリアル

＆＃＆プレス

Node.js と Redis を使用してブルームフィルターの威力を探る

PHPz

Sep 01, 2023 pm 10:53 PM

使用 Node.js 和 Redis 探索 Bloom Filter 的魅力

適切な使用例では、ブルームフィルターは魔法のように見えます。これは大胆な発言ですが、このチュートリアルでは、この奇妙なデータ構造、それを最大限に活用する方法、そして Redis と Node.js を使用したいくつかの実践的な例について説明します。

ブルームフィルターは確率的な一方向のデータ構造です。この文脈では「フィルター」という単語は混乱を招く可能性があります。フィルターは動詞である能動的なものを意味しますが、ストレージである名詞と考えるほうが簡単かもしれません。単純なブルームフィルターを使用すると、次の 2 つのことができます:

項目を追加します。
アイテムが以前に 追加されていないかを確認します。

これらは理解しておくべき重要な制限です。アイテムを削除したり、ブルームフィルターにアイテムをリストしたりすることはできません。さらに、アイテムが過去にフィルターに追加されたかどうかを判断することはできません。ここで、ブルームフィルターの確率的な性質が関係します。偽陽性は発生する可能性がありますが、偽陰性は発生しません。フィルターが正しく設定されていれば、誤検知の可能性は非常に低くなります。

ブルームフィルターには、削除や拡大縮小などの追加機能を追加するバリアントが存在しますが、複雑さと制限も追加します。バリエーションに進む前に、まず単純なブルームフィルターを理解することが重要です。この記事では、単純なブルームフィルターのみを紹介します。

これらの制限により、固定サイズ、ハッシュベースの暗号化、高速検索など、多くの利点が得られます。

ブルームフィルターを設定するときは、そのサイズを指定する必要があります。このサイズは固定されているため、フィルター内に 1 個または 10 億個の項目がある場合でも、指定されたサイズを超えることはありません。フィルタに項目を追加すると、誤検知の可能性が高くなります。小さいフィルターを指定すると、大きいフィルターを使用した場合よりも偽陽性率が速く増加します。

ブルームフィルターは、一方向ハッシュの概念に基づいて構築されています。パスワードを正しく保存するのと同じように、ブルームフィルターはハッシュアルゴリズムを使用して、渡されたアイテムの一意の識別子を決定します。ハッシュは本質的に不可逆であり、一見ランダムな文字列で表されます。したがって、誰かがブルームフィルターにアクセスしたとしても、直接的には何も明らかになりません。

最後に、ブルームフィルターは高速です。この操作では、他の方法に比べて比較の回数がはるかに少なく、メモリに簡単に保存できるため、パフォーマンスに影響を与えるデータベースヒットを防ぐことができます。

ブルームフィルターの制限と利点を理解したところで、ブルームフィルターを使用できるいくつかの状況を見てみましょう。

＃＃＃設定＃＃＃

Redis と Node.js を使用したブルームフィルターについて説明します。 Redis はブルームフィルターの記憶媒体であり、高速でメモリ内にあり、実装をより効率的に行う特定のコマンド (

GETBIT

、

SETBIT) を備えています。システムに Node.js、npm、Redis がインストールされていると仮定します。この例が正しく動作するには、Redis サーバーが localhost のデフォルトポートで実行されている必要があります。 このチュートリアルでは、フィルターを最初から実装するのではなく、フィルターを最初から実装します。代わりに、npm で事前に構築されたモジュール Bloom-redis の実用的な使用に焦点を当てます。 bloom-redis には、add

、

contains、clear という非常に簡潔なメソッドのセットがあります。 前述したように、ブルームフィルターではアイテムの一意の識別子を生成するためにハッシュアルゴリズムが必要です。 Bloom-redis はよく知られた MD5 アルゴリズムを使用しており、ブルームフィルターには適していない可能性がありますが、正常に機能します (少し遅く、少しやりすぎです)。

一意のユーザー名

ユーザー名、特に URL 内でユーザーを識別するものは一意である必要があります。ユーザーがユーザー名を変更できるアプリケーションを構築する場合、ユーザー名の混乱や攻撃を避けるために、決して使用されないユーザー名が必要になる場合があります。

ブルームフィルターを使用しない場合、これまでに使用されたすべてのユーザー名を含むテーブルを参照する必要があり、大規模になると法外なコストがかかる可能性があります。ブルームフィルターを使用すると、ユーザーが新しい名前を採用するたびに項目を追加できます。ユーザーがユーザー名が使用されているかどうかを確認するときに必要なのは、ブルームフィルターを確認することだけです。要求されたユーザー名が以前に追加されたことがあるかどうかを確実に知ることができます。実際にはユーザー名が取得されていないのに、フィルターがユーザー名が取得されたと誤って返す場合がありますが、これは単なる予防策であり、実際の害はありません (ユーザーが「k3w1d00d47」を宣言できない可能性があることを除けば) .

これを説明するために、Express を使用して高速 REST サーバーを構築してみましょう。まず、

package.json

ファイルを作成し、次のターミナルコマンドを実行します。

npm install Bloom-redis --save

npm install Express --save

npm install redis --save

bloom-redis のデフォルトのオプションサイズは 2 MB に設定されています。注意して間違っていますが、かなり大きいです。ブルームフィルターのサイズの設定は非常に重要です。大きすぎるとメモリを浪費し、小さすぎると誤検知率が高くなりすぎます。サイズの決定に必要な計算は複雑であり、このチュートリアルの範囲を超えていますが、幸いなことに、教科書を解読することなくその仕事を行うブルームフィルターサイズ計算ツールがあります。

ここで、app.js を次のように作成します:

リーリー

このサーバーを実行するには: node app.js。ブラウザに移動し、https://localhost:8010/check?username=kyle を指定します。応答は次のようになります: {"username":"kyle","status":"free"}。

それでは、ブラウザで http://localhost:8010/save?username=kyle を指定して、そのユーザー名を保存しましょう。応答は次のようになります: {"username":"kyle","status":"created"}。戻りアドレスが http://localhost:8010/check?username=kyle の場合、応答は {"username":"kyle","status ":"used"}# になります。 ## 同様に、 http://localhost:8010/save?username=kyle を返すと、 {"username":"kyle","status":"not -created"} となります。 。

ターミナルからフィルターのサイズを確認できます。

redis-cli strlen ユーザー名-bloom-filter。

ここで、1 つの項目については、

338622 と読み取られるはずです。

次に、

/save ルートを使用してさらにユーザー名を追加してみます。好きなだけ試すことができます。

寸法を再度確認すると、寸法がわずかに増加していることがわかりますが、追加するたびに増加しているわけではありません。興味がありますよね？内部的には、ブルームフィルターは、username-bloom に格納されている文字列内の異なる位置に個々のビット (1/0) を設定します。ただし、これらは連続していないため、インデックス 0 にビットを設定し、次にインデックス 10,000 にビットを設定すると、その間のビットはすべて 0 になります。実際の目的では、最初に各操作の正確な仕組みを理解することは重要ではありません。これは正常であり、指定した以上のデータを Redis に保存することは決してないことだけを理解してください。

新鮮なコンテンツ

Web サイト上の新鮮なコンテンツはユーザーを再訪させる可能性があります。では、毎回新しいコンテンツをユーザーに表示するにはどうすればよいでしょうか?従来のデータベースアプローチを使用すると、ユーザー識別子とストーリー識別子を含むテーブルに新しい行を追加し、コンテンツを表示することに決めたときにテーブルをクエリします。ご想像のとおり、データベースは、特にユーザーとコンテンツが増加するにつれて、非常に急速に拡大します。

この場合、偽陰性の影響 (未表示のコンテンツが表示されないなど) は非常に小さいため、ブルームフィルターが実行可能なオプションになります。一見すると、各ユーザーにブルームフィルターが必要だと思うかもしれませんが、ユーザー識別子とコンテンツ識別子の単純な連結を使用し、その文字列をフィルターに挿入します。このようにして、すべてのユーザーに対して単一のフィルターを使用できます。

この例では、コンテンツを表示する別の基本的な Express サーバーを構築しましょう。ルート

/show-content/any-username (any-username は URL セーフな値です) にアクセスするたびに、サイトが終了するまで新しいコンテンツが表示されます。中身が空っぽ。この例では、コンテンツはプロジェクトグーテンベルクの書籍トップ 10 の最初の行です。

別の npm モジュールをインストールする必要があります。ターミナルから実行します。

npm install async --save

新しい app.js ファイル:

リーリー

開発ツールのラウンドトリップ時間に細心の注意を払うと、ユーザー名を使用して単一のパスをリクエストする回数が増えるほど、時間がかかることがわかります。フィルターのチェックには一定の時間がかかりますが、この場合はさらに多くのアイテムの存在をチェックしています。ブルームフィルターで伝えられる内容は限られているため、各項目の存在をテストすることになります。もちろん、この例では非常に単純ですが、何百ものプロジェクトをテストするのは非効率です。

古いデータ

この例では、POST 経由で新しいデータを受け取り、(GET リクエストを使用して) 現在のデータを表示するという 2 つのことを実行する小規模な Express サーバーを構築します。新しいデータがサーバーに POST されると、アプリケーションはそのデータがフィルターに存在するかどうかを確認します。存在しない場合は Redis のコレクションに追加します。存在しない場合は null を返します。 GET リクエストは Redis からそれを取得し、クライアントに送信します。

これは最初の 2 つの状況とは異なり、誤検知は許可されません。ブルームフィルターを防御の第一線として使用します。ブルームフィルターの特性を考慮すると、フィルター内に何かが存在しないことのみを確認できるため、この場合はデータを入力し続けることができます。ブルームフィルターがフィルター内にある可能性のあるデータを返した場合は、実際のデータソースと照合します。

那么，我们得到了什么？我们获得了不必每次都检查实际来源的速度。在数据源速度较慢的情况下（外部 API、小型数据库、平面文件的中间），确实需要提高速度。为了演示速度，我们在示例中添加 150 毫秒的实际延迟。我们还将使用 console.time / console.timeEnd 来记录 Bloom 过滤器检查和非 Bloom 过滤器检查之间的差异。

在此示例中，我们还将使用极其有限的位数：仅 1024。它很快就会填满。当它填满时，它将显示越来越多的误报 - 您会看到响应时间随着误报率的填满而增加。

该服务器使用与之前相同的模块，因此将 app.js 文件设置为：

var
  async           =   require('async'),
  Bloom           =   require('bloom-redis'),
  bodyParser      =   require('body-parser'),
  express         =   require('express'),
  redis           =   require('redis'),
  
  app,
  client,
  filter,
  
  currentDataKey  = 'current-data',
  usedDataKey     = 'used-data';
  
app = express();
client = redis.createClient();

filter = new Bloom.BloomFilter({ 
  client    : client,
  key       : 'stale-bloom-filter',
  //for illustration purposes, this is a super small filter. It should fill up at around 500 items, so for a production load, you'd need something much larger!
  size      : 1024,
  numHashes : 20
});

app.post(
  '/',
  bodyParser.text(),
  function(req,res,next) {
    var
      used;
      
    console.log('POST -', req.body); //log the current data being posted
    console.time('post'); //start measuring the time it takes to complete our filter and conditional verification process
    
    //async.series is used to manage multiple asynchronous function calls.
    async.series([
      function(cb) {
        filter.contains(req.body, function(err,filterStatus) {
          if (err) { cb(err); } else {
            used = filterStatus;
            cb(err);
          }
        });
      },
      function(cb) {
        if (used === false) {
          //Bloom filters do not have false negatives, so we need no further verification
          cb(null);
        } else {
          //it *may* be in the filter, so we need to do a follow up check
          //for the purposes of the tutorial, we'll add a 150ms delay in here since Redis can be fast enough to make it difficult to measure and the delay will simulate a slow database or API call
          setTimeout(function() {
            console.log('possible false positive');
            client.sismember(usedDataKey, req.body, function(err, membership) {
              if (err) { cb(err); } else {
                //sismember returns 0 if an member is not part of the set and 1 if it is.
                //This transforms those results into booleans for consistent logic comparison
                used = membership === 0 ? false : true;
                cb(err);
              }
            });
          }, 150);
        }
      },
      function(cb) {
        if (used === false) {
          console.log('Adding to filter');
          filter.add(req.body,cb);
        } else {
          console.log('Skipped filter addition, [false] positive');
          cb(null);
        }
      },
      function(cb) {
        if (used === false) {
          client.multi()
            .set(currentDataKey,req.body) //unused data is set for easy access to the 'current-data' key
            .sadd(usedDataKey,req.body) //and added to a set for easy verification later
            .exec(cb); 
        } else {
          cb(null);
        }
      }
      ],
      function(err, cb) {
        if (err) { next(err); } else {
          console.timeEnd('post'); //logs the amount of time since the console.time call above
          res.send({ saved : !used }); //returns if the item was saved, true for fresh data, false for stale data.
        }
      }
    );
});

app.get('/',function(req,res,next) {
  //just return the fresh data
  client.get(currentDataKey, function(err,data) {
    if (err) { next(err); } else {
      res.send(data);
    }
  });
});

app.listen(8012);

ログイン後にコピー

由于使用浏览器 POST 到服务器可能会很棘手，所以让我们使用curl 来测试。

curl --data“您的数据放在这里”--header“内容类型：text/plain”http://localhost:8012/

可以使用快速 bash 脚本来显示填充整个过滤器的外观：

#!/bin/bash
for i in `seq 1 500`;
do
  curl --data “data $i" --header "Content-Type: text/plain" http://localhost:8012/
done

ログイン後にコピー

观察填充或完整的过滤器很有趣。由于这个很小，你可以使用 redis-cli 轻松查看。通过在添加项目之间从终端运行 redis-cli get stale-filter ，您将看到各个字节增加。完整的过滤器将为每个字节 \xff 。此时，过滤器将始终返回正值。

结论

布隆过滤器并不是万能的解决方案，但在适当的情况下，布隆过滤器可以为其他数据结构提供快速、有效的补充。

如果您仔细注意开发工具中的往返时间，您会发现使用用户名请求单个路径的次数越多，所需的时间就越长。虽然检查过滤器需要固定的时间，但在本例中，我们正在检查是否存在更多项目。布隆过滤器能够告诉您的信息有限，因此您正在测试每个项目是否存在。当然，在我们的示例中，它相当简单，但测试数百个项目效率很低。

以上がNode.js と Redis を使用してブルームフィルターの威力を探るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7517

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

WordPressは初心者にとって簡単ですか？ Apr 03, 2025 am 12:02 AM

WordPressは、初心者が簡単に始めることができます。 1.バックグラウンドにログインした後、ユーザーインターフェイスは直感的であり、シンプルなダッシュボードは必要なすべての関数リンクを提供します。 2。基本操作には、コンテンツの作成と編集が含まれます。 WysiWygエディターは、コンテンツの作成を簡素化します。 3.初心者は、プラグインとテーマを介してウェブサイトの機能を拡張でき、学習曲線は存在しますが、練習を通じて習得できます。

ワードプレスは何に適していますか？ Apr 07, 2025 am 12:06 AM

wordpressisisgoodforvirtalayanywebprojectoitsversitilityasacms.itexcelsin：1）ユーザーフレンドリー、柔軟性と柔軟性と顧客化の維持、およびプルージンの数値化; 3）seooptimization;

WordPressを3日で学ぶことはできますか？ Apr 09, 2025 am 12:16 AM

3日以内にWordPressを学ぶことができます。 1.テーマ、プラグインなどのマスター基本知識。2。インストールや作業原則などのコア関数を理解します。 3.例を使用して、基本的および高度な使用法を学びます。 4.デバッグテクニックとパフォーマンスの最適化の提案を理解します。

WixまたはWordPressを使用する必要がありますか？ Apr 06, 2025 am 12:11 AM

WIXは、プログラミングの経験がないユーザーに適しており、WordPressは、よりコントロールと拡張機能を必要とするユーザーに適しています。 1）WIXはドラッグアンドドロップエディターとリッチテンプレートを提供しているため、Webサイトをすばやく構築できます。 2）オープンソースのCMSとして、WordPressには巨大なコミュニティとプラグインエコシステムがあり、詳細なカスタマイズと拡張をサポートしています。

WordPressの費用はいくらですか？ Apr 05, 2025 am 12:13 AM

WordPress自体は無料ですが、使用するには余分な費用がかかります。1。WordPress.comは、無料から支払いまでの範囲のパッケージを提供し、価格は月あたり数ドルから数十ドルまでの範囲です。 2。WordPress.orgでは、ドメイン名（年間10〜20米ドル）とホスティングサービス（月額5〜50米ドル）を購入する必要があります。 3.ほとんどのプラグインとテーマは無料で、有料価格は数十から数百ドルです。適切なホスティングサービスを選択し、プラグインとテーマを合理的に使用し、定期的に維持および最適化することにより、WordPressのコストを効果的に制御および最適化できます。

なぜWordPressを使用するのはなぜですか？ Apr 02, 2025 pm 02:57 PM

人々は、その力と柔軟性のためにWordPressを使用することを選択します。 1）WordPressは、さまざまなWebサイトのニーズに適した、使いやすさとスケーラビリティを備えたオープンソースのCMSです。 2）豊富なテーマとプラグイン、巨大なエコシステム、強力なコミュニティサポートがあります。 3）WordPressの作業原則は、テーマ、プラグイン、コア関数に基づいており、PHPとMySQLを使用してデータを処理し、パフォーマンスの最適化をサポートします。

WordPressはCMSですか？ Apr 08, 2025 am 12:02 AM

WordPressはコンテンツ管理システム（CMS）です。コンテンツ管理、ユーザー管理、テーマ、プラグイン機能を提供して、Webサイトコンテンツの作成と管理をサポートします。その実用的な原則には、ブログから企業Webサイトまで、さまざまなニーズに適したデータベース管理、テンプレートシステム、プラグインアーキテクチャが含まれます。

WordPressはまだ無料ですか？ Apr 04, 2025 am 12:06 AM

WordPressのコアバージョンは無料ですが、使用中に他の料金が発生する場合があります。 1。ドメイン名とホスティングサービスには支払いが必要です。 2。高度なテーマとプラグインが充電される場合があります。 3.プロフェッショナルサービスと高度な機能が請求される場合があります。

See all articles

Node.js と Redis を使用してブルーム フィルターの威力を探る

GETBIT

结论

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Node.js と Redis を使用してブルームフィルターの威力を探る