집_가격_예측-파이썬 튜토리얼-php.cn

집

집_가격_예측

Nov 03, 2024 pm 12:28 PM

부동산 세계에서 부동산 가격을 결정하는 데는 위치, 규모, 편의 시설, 시장 동향에 이르기까지 다양한 요소가 관련됩니다. 기계 학습의 기본 기술인 단순 선형 회귀는 방 수나 면적과 같은 주요 특징을 기반으로 주택 가격을 예측하는 실용적인 방법을 제공합니다.

이 기사에서는 데이터 전처리 및 특성 선택부터 귀중한 가격 통찰력을 제공할 수 있는 모델 구축에 이르기까지 주택 데이터세트에 단순 선형 회귀를 적용하는 과정을 자세히 살펴봅니다. 데이터 과학을 처음 접하는 사람이든 더 깊은 이해를 원하는 사람이든 이 프로젝트는 데이터 기반 예측이 어떻게 더 스마트한 부동산 결정을 내릴 수 있는지에 대한 실습 탐색의 역할을 합니다.

먼저 라이브러리를 가져오는 것부터 시작합니다.

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

로그인 후 복사

#Read from the directory where you stored the data

data  = pd.read_csv('/kaggle/input/california-housing-prices/housing.csv')

로그인 후 복사

data

로그인 후 복사

집_가격_예측

#Test to see if there arent any null values
data.info()

로그인 후 복사

집_가격_예측

#Trying to draw the same number of null values
data.dropna(inplace = True)

로그인 후 복사

data.info()

로그인 후 복사

집_가격_예측

#From our data, we are going to train and test our data

from sklearn.model_selection import train_test_split

X = data.drop(['median_house_value'], axis = 1)
y = data['median_house_value']

로그인 후 복사

집_가격_예측

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

로그인 후 복사

#Examining correlation between x and y training data
train_data = X_train.join(y_train)

로그인 후 복사

train_data

로그인 후 복사

집_가격_예측

#Visualizing the above
train_data.hist(figsize=(15, 8))

로그인 후 복사

집_가격_예측

#Encoding non-numeric columns to see if they are useful and categorical for analysis

train_data_encoded = pd.get_dummies(train_data, drop_first=True)
correlation_matrix = train_data_encoded.corr()
print(correlation_matrix)

로그인 후 복사

집_가격_예측

train_data_encoded.corr()

로그인 후 복사

집_가격_예측

plt.figure(figsize=(15,8))
sns.heatmap(train_data_encoded.corr(), annot=True, cmap = "inferno")

로그인 후 복사

집_가격_예측

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

로그인 후 복사

#Read from the directory where you stored the data

data  = pd.read_csv('/kaggle/input/california-housing-prices/housing.csv')

로그인 후 복사

집_가격_예측

data

로그인 후 복사

해양_근접성
내륙 5183
바다 근처 2108
베이 1783 근처
섬 5
이름: 개수, dtype: int64

#Test to see if there arent any null values
data.info()

로그인 후 복사

집_가격_예측

#Trying to draw the same number of null values
data.dropna(inplace = True)

로그인 후 복사

data.info()

로그인 후 복사

집_가격_예측

#From our data, we are going to train and test our data

from sklearn.model_selection import train_test_split

X = data.drop(['median_house_value'], axis = 1)
y = data['median_house_value']

로그인 후 복사

집_가격_예측

로그인 후 복사

집_가격_예측

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

로그인 후 복사

#Examining correlation between x and y training data
train_data = X_train.join(y_train)

로그인 후 복사

집_가격_예측

train_data

로그인 후 복사

집_가격_예측

#Visualizing the above
train_data.hist(figsize=(15, 8))

로그인 후 복사

#Encoding non-numeric columns to see if they are useful and categorical for analysis

train_data_encoded = pd.get_dummies(train_data, drop_first=True)
correlation_matrix = train_data_encoded.corr()
print(correlation_matrix)

로그인 후 복사

train_data_encoded.corr()

로그인 후 복사

plt.figure(figsize=(15,8))
sns.heatmap(train_data_encoded.corr(), annot=True, cmap = "inferno")

로그인 후 복사

train_data['total_rooms'] = np.log(train_data['total_rooms'] + 1)
train_data['total_bedrooms'] = np.log(train_data['total_bedrooms'] +1)
train_data['population'] = np.log(train_data['population'] + 1)
train_data['households'] = np.log(train_data['households'] + 1)

로그인 후 복사

train_data.hist(figsize=(15, 8))

로그인 후 복사

0.5092972905670141

#convert ocean_proximity factors into binary's using one_hot_encoding
train_data.ocean_proximity.value_counts()

로그인 후 복사

집_가격_예측

#For each feature of the above we will then create its binary(0 or 1)
pd.get_dummies(train_data.ocean_proximity)

로그인 후 복사

0.4447616558596853

#Dropping afterwards the proximity
train_data = train_data.join(pd.get_dummies(train_data.ocean_proximity)).drop(['ocean_proximity'], axis=1)

로그인 후 복사

집_가격_예측

train_data

로그인 후 복사

집_가격_예측

#recheck for correlation
plt.figure(figsize=(18, 8))
sns.heatmap(train_data.corr(), annot=True, cmap ='twilight')

로그인 후 복사

0.5384474921332503

기계를 훈련시키는 것이 가장 쉬운 프로세스는 아니지만 위의 결과를 계속 개선하려면 param_grid 아래에 min_feature와 같은 더 많은 기능을 추가하면 최고의 추정기 점수가 지속적으로 개선될 수 있습니다.

여기까지 오셨다면 아래 댓글에 좋아요를 누르고 공유해 주세요. 여러분의 의견은 정말 중요합니다. 감사합니다!??❤️

위 내용은 집_가격_예측의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫툴 태그

코드앤아이

오디오

사업

마케팅

AI감지기

챗봇

디자인&아트

뜨거운 기사 태그

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7283

자바 튜토리얼

1622

Cakephp 튜토리얼

1342

라라벨 튜토리얼

1259

PHP 튜토리얼

1205

Related knowledge

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? Mar 10, 2025 pm 06:54 PM

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?

파이썬의 이미지 필터링 Mar 03, 2025 am 09:44 AM

파이썬의 이미지 필터링

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Mar 05, 2025 am 09:58 AM

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법

Python을 사용하여 PDF 문서를 사용하는 방법 Mar 02, 2025 am 09:54 AM

Python을 사용하여 PDF 문서를 사용하는 방법

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Mar 02, 2025 am 10:10 AM

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Mar 10, 2025 pm 06:52 PM

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?

파이썬 객체의 직렬화 및 사제화 : 1 부 Mar 08, 2025 am 09:39 AM

파이썬 객체의 직렬화 및 사제화 : 1 부

파이썬에서 자신의 데이터 구조를 구현하는 방법 Mar 03, 2025 am 09:28 AM

파이썬에서 자신의 데이터 구조를 구현하는 방법

See all articles

집_가격_예측

인기 기사

핫툴 태그

인기 기사

뜨거운 기사 태그

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제