Apache Spark 結合に Null 値を含める方法は?-mysql チュートリアル-php.cn

ホームページ

データベース

mysql チュートリアル

Apache Spark 結合に Null 値を含める方法は?

DDD

Dec 27, 2024 am 06:53 AM

How to Include Null Values in Apache Spark Joins?

Apache Spark 結合に Null 値を含める

Apache Spark のデフォルトの結合動作では、Null 値を持つ行が除外されるため、そのような価値観の維持。この記事では、Apache Spark の結合操作に null 値を含める方法を説明することで、この問題に対処します。

デフォルトの Spark の動作

デフォルトでは、Spark は内部結合を実行します。結合条件に関係するいずれかの列で NULL 値を持つ行を削除します。これを説明するために、次の例を考えてみましょう。

val numbersDf = Seq(
  ("123"),
  ("456"),
  (null),
  ("")
).toDF("numbers")

val lettersDf = Seq(
  ("123", "abc"),
  ("456", "def"),
  (null, "zzz"),
  ("", "hhh")
).toDF("numbers", "letters")

val joinedDf = numbersDf.join(lettersDf, Seq("numbers"))

ログイン後にコピー

joinedDf.show() の出力は次のようになります。

+-------+-------+
|numbers|letters|
+-------+-------+
|    123|    abc|
|    456|    def|
|       |    hhh|
+-------+-------+

ログイン後にコピー

予想通り、行には null 値が含まれています。 numbersDf の「numbers」列は結合結果から除外されます。

Null を含むValues

Spark は、null セーフな等価演算子を通じてこの問題の解決策を提供します。次のコードを使用すると、結合操作に null 値を含めることができます:

numbersDf
  .join(lettersDf, numbersDf("numbers") <=> lettersDf("numbers"))
  .drop(lettersDf("numbers"))

ログイン後にコピー

この変更された結合操作の結果、次の出力が生成され、以前に除外された null 値の行が含まれるようになります:

+-------+-------+
|numbers|letters|
+-------+-------+
|    123|    abc|
|    456|    def|
|   null|    zzz|
|       |    hhh|
+-------+-------+

ログイン後にコピー

この null セーフな等価演算子は、コストのかかるデカルト演算が必要なため、1.6 より前の Spark バージョンでは慎重に使用する必要があることに注意することが重要です。 product.

Spark 2.3.0 以降

Spark 2.3.0 以降では、PySpark で Column.eqNullSafe メソッドを使用できますが、%=< ;=>% 演算子を SparkR で使用すると、同じ結果が得られます。さらに、Spark 2.2.0 では SQL 構文 IS NOT DISTINCT FROM を DataFrame API とともに使用して、結合操作に null 値を含めることができます。

以上がApache Spark 結合に Null 値を含める方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7542

CakePHP チュートリアル

1381

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

INNODBフルテキスト検索機能を説明します。 Apr 02, 2025 pm 06:09 PM

INNODBのフルテキスト検索機能は非常に強力であり、データベースクエリの効率と大量のテキストデータを処理する能力を大幅に改善できます。 1）INNODBは、倒立インデックスを介してフルテキスト検索を実装し、基本的および高度な検索クエリをサポートします。 2）一致を使用してキーワードを使用して、ブールモードとフレーズ検索を検索、サポートします。 3）最適化方法には、単語セグメンテーションテクノロジーの使用、インデックスの定期的な再構築、およびパフォーマンスと精度を改善するためのキャッシュサイズの調整が含まれます。

Alter Tableステートメントを使用してMySQLのテーブルをどのように変更しますか？ Mar 19, 2025 pm 03:51 PM

この記事では、MySQLのAlter Tableステートメントを使用して、列の追加/ドロップ、テーブル/列の名前の変更、列データ型の変更など、テーブルを変更することについて説明します。

MySQLでインデックスを使用するよりも、フルテーブルスキャンがいつ速くなるのでしょうか？ Apr 09, 2025 am 12:05 AM

完全なテーブルスキャンは、MySQLでインデックスを使用するよりも速い場合があります。特定のケースには以下が含まれます。1）データボリュームは小さい。 2）クエリが大量のデータを返すとき。 3）インデックス列が高度に選択的でない場合。 4）複雑なクエリの場合。クエリプランを分析し、インデックスを最適化し、オーバーインデックスを回避し、テーブルを定期的にメンテナンスすることにより、実際のアプリケーションで最良の選択をすることができます。

Windows 7にMySQLをインストールできますか？ Apr 08, 2025 pm 03:21 PM

はい、MySQLはWindows 7にインストールできます。MicrosoftはWindows 7のサポートを停止しましたが、MySQLは引き続き互換性があります。ただし、インストールプロセス中に次のポイントに注意する必要があります。WindowsのMySQLインストーラーをダウンロードしてください。 MySQL（コミュニティまたはエンタープライズ）の適切なバージョンを選択します。インストールプロセス中に適切なインストールディレクトリと文字セットを選択します。ルートユーザーパスワードを設定し、適切に保ちます。テストのためにデータベースに接続します。 Windows 7の互換性とセキュリティの問題に注意してください。サポートされているオペレーティングシステムにアップグレードすることをお勧めします。

MySQL接続用のSSL/TLS暗号化を構成するにはどうすればよいですか？ Mar 18, 2025 pm 12:01 PM

記事では、証明書の生成と検証を含むMySQL用のSSL/TLS暗号化の構成について説明します。主な問題は、セルフ署名証明書のセキュリティへの影響を使用することです。[文字カウント：159]

人気のあるMySQL GUIツール（MySQL Workbench、PhpMyAdminなど）は何ですか？ Mar 21, 2025 pm 06:28 PM

記事では、MySQLワークベンチやPHPMyAdminなどの人気のあるMySQL GUIツールについて説明し、初心者と上級ユーザーの機能と適合性を比較します。[159文字]

INNODBのクラスターインデックスと非クラスターインデックス（セカンダリインデックス）の違い。 Apr 02, 2025 pm 06:25 PM

クラスター化されたインデックスと非クラスター化されたインデックスの違いは次のとおりです。1。クラスター化されたインデックスは、インデックス構造にデータを保存します。これは、プライマリキーと範囲でクエリするのに適しています。 2.非クラスター化されたインデックスストアは、インデックスキー値とデータの行へのポインターであり、非プリマリーキー列クエリに適しています。