住宅価格_予測-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

住宅価格_予測

Patricia Arquette

Nov 03, 2024 pm 12:28 PM

不動産の世界では、不動産価格の決定には、立地や規模から設備や市場動向まで、多くの要素が関係します。機械学習の基本的な手法である単純線形回帰は、部屋数や平方フィートなどの主要な特徴に基づいて住宅価格を予測する実用的な方法を提供します。

この記事では、データの前処理と特徴の選択から、価値のある価格の洞察を提供できるモデルの構築まで、住宅データセットに単純な線形回帰を適用するプロセスを詳しく説明します。データサイエンスを初めて使用する場合でも、理解を深めたいと考えている場合でも、このプロジェクトは、データに基づいた予測がどのようにしてより賢明な不動産に関する意思決定を形成できるかを実践的に探求するのに役立ちます。

まず最初に、ライブラリをインポートすることから始めます:

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

ログイン後にコピー

#Read from the directory where you stored the data

data  = pd.read_csv('/kaggle/input/california-housing-prices/housing.csv')

ログイン後にコピー

data

ログイン後にコピー

住宅価格_予測

#Test to see if there arent any null values
data.info()

ログイン後にコピー

住宅価格_予測

#Trying to draw the same number of null values
data.dropna(inplace = True)

ログイン後にコピー

data.info()

ログイン後にコピー

住宅価格_予測

#From our data, we are going to train and test our data

from sklearn.model_selection import train_test_split

X = data.drop(['median_house_value'], axis = 1)
y = data['median_house_value']

ログイン後にコピー

住宅価格_予測

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

ログイン後にコピー

#Examining correlation between x and y training data
train_data = X_train.join(y_train)

ログイン後にコピー

train_data

ログイン後にコピー

住宅価格_予測

#Visualizing the above
train_data.hist(figsize=(15, 8))

ログイン後にコピー

住宅価格_予測

#Encoding non-numeric columns to see if they are useful and categorical for analysis

train_data_encoded = pd.get_dummies(train_data, drop_first=True)
correlation_matrix = train_data_encoded.corr()
print(correlation_matrix)

ログイン後にコピー

住宅価格_予測

train_data_encoded.corr()

ログイン後にコピー

住宅価格_予測

plt.figure(figsize=(15,8))
sns.heatmap(train_data_encoded.corr(), annot=True, cmap = "inferno")

ログイン後にコピー

住宅価格_予測

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

ログイン後にコピー

#Read from the directory where you stored the data

data  = pd.read_csv('/kaggle/input/california-housing-prices/housing.csv')

ログイン後にコピー

住宅価格_予測

data

ログイン後にコピー

海洋近接
インランド 5183
ニアオーシャン 2108
ニアベイ 1783
アイランド5
名前: count、dtype: int64

#Test to see if there arent any null values
data.info()

ログイン後にコピー

住宅価格_予測

#Trying to draw the same number of null values
data.dropna(inplace = True)

ログイン後にコピー

data.info()

ログイン後にコピー

住宅価格_予測

#From our data, we are going to train and test our data

from sklearn.model_selection import train_test_split

X = data.drop(['median_house_value'], axis = 1)
y = data['median_house_value']

ログイン後にコピー

住宅価格_予測

ログイン後にコピー

住宅価格_予測

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

ログイン後にコピー

#Examining correlation between x and y training data
train_data = X_train.join(y_train)

ログイン後にコピー

住宅価格_予測

train_data

ログイン後にコピー

住宅価格_予測

#Visualizing the above
train_data.hist(figsize=(15, 8))

ログイン後にコピー

#Encoding non-numeric columns to see if they are useful and categorical for analysis

train_data_encoded = pd.get_dummies(train_data, drop_first=True)
correlation_matrix = train_data_encoded.corr()
print(correlation_matrix)

ログイン後にコピー

train_data_encoded.corr()

ログイン後にコピー

plt.figure(figsize=(15,8))
sns.heatmap(train_data_encoded.corr(), annot=True, cmap = "inferno")

ログイン後にコピー

train_data['total_rooms'] = np.log(train_data['total_rooms'] + 1)
train_data['total_bedrooms'] = np.log(train_data['total_bedrooms'] +1)
train_data['population'] = np.log(train_data['population'] + 1)
train_data['households'] = np.log(train_data['households'] + 1)

ログイン後にコピー

train_data.hist(figsize=(15, 8))

ログイン後にコピー

0.5092972905670141

#convert ocean_proximity factors into binary's using one_hot_encoding
train_data.ocean_proximity.value_counts()

ログイン後にコピー

住宅価格_予測

#For each feature of the above we will then create its binary(0 or 1)
pd.get_dummies(train_data.ocean_proximity)

ログイン後にコピー

0.4447616558596853

#Dropping afterwards the proximity
train_data = train_data.join(pd.get_dummies(train_data.ocean_proximity)).drop(['ocean_proximity'], axis=1)

ログイン後にコピー

住宅価格_予測

train_data

ログイン後にコピー

住宅価格_予測

#recheck for correlation
plt.figure(figsize=(18, 8))
sns.heatmap(train_data.corr(), annot=True, cmap ='twilight')

ログイン後にコピー

0.5384474921332503

マシンのトレーニングは最も簡単なプロセスではないと本当に言いたいのですが、上記の結果を改善し続けるために、min_feature などの機能を param_grid の下に追加できます。そうすることで、最高の推定スコアを改善し続けることができます。

ここまで読んだ方は、以下のコメントを「いいね」して共有してください。あなたの意見は非常に重要です。ありがとう!??❤️

以上が住宅価格_予測の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Java チュートリアル

1668

CakePHP チュートリアル

1428

Laravel チュートリアル

1329

PHP チュートリアル

1273

C# チュートリアル

1256

Related knowledge

Python：ゲーム、GUIなど Apr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：曲線と使いやすさの学習 Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Pythonと時間：勉強時間を最大限に活用する Apr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python vs. C：パフォーマンスと効率の探索 Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

Pythonの学習：2時間の毎日の研究で十分ですか？ Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Python Standard Libraryの一部はどれですか：リストまたは配列はどれですか？ Apr 27, 2025 am 12:03 AM

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。

Python：自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。