집_가격_예측

Nov 03, 2024 pm 12:28 PM

부동산 세계에서 부동산 가격을 결정하는 데는 위치, 규모, 편의 시설, 시장 동향에 이르기까지 다양한 요소가 관련됩니다. 기계 학습의 기본 기술인 단순 선형 회귀는 방 수나 면적과 같은 주요 특징을 기반으로 주택 가격을 예측하는 실용적인 방법을 제공합니다.

이 기사에서는 데이터 전처리 및 특성 선택부터 귀중한 가격 통찰력을 제공할 수 있는 모델 구축에 이르기까지 주택 데이터세트에 단순 선형 회귀를 적용하는 과정을 자세히 살펴봅니다. 데이터 과학을 처음 접하는 사람이든 더 깊은 이해를 원하는 사람이든 이 프로젝트는 데이터 기반 예측이 어떻게 더 스마트한 부동산 결정을 내릴 수 있는지에 대한 실습 탐색의 역할을 합니다.

먼저 라이브러리를 가져오는 것부터 시작합니다.

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
로그인 후 복사
로그인 후 복사
#Read from the directory where you stored the data

data  = pd.read_csv('/kaggle/input/california-housing-prices/housing.csv')
로그인 후 복사
로그인 후 복사
data
로그인 후 복사
로그인 후 복사

집_가격_예측

집_가격_예측

#Test to see if there arent any null values
data.info()
로그인 후 복사
로그인 후 복사

집_가격_예측

#Trying to draw the same number of null values
data.dropna(inplace = True)
로그인 후 복사
로그인 후 복사
data.info()
로그인 후 복사
로그인 후 복사

집_가격_예측

#From our data, we are going to train and test our data

from sklearn.model_selection import train_test_split

X = data.drop(['median_house_value'], axis = 1)
y = data['median_house_value']
로그인 후 복사
로그인 후 복사
y
로그인 후 복사
로그인 후 복사

집_가격_예측

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)
로그인 후 복사
로그인 후 복사
#Examining correlation between x and y training data
train_data = X_train.join(y_train)
로그인 후 복사
로그인 후 복사
train_data
로그인 후 복사
로그인 후 복사
로그인 후 복사

집_가격_예측

집_가격_예측

#Visualizing the above
train_data.hist(figsize=(15, 8))
로그인 후 복사
로그인 후 복사

집_가격_예측

#Encoding non-numeric columns to see if they are useful and categorical for analysis

train_data_encoded = pd.get_dummies(train_data, drop_first=True)
correlation_matrix = train_data_encoded.corr()
print(correlation_matrix)
로그인 후 복사
로그인 후 복사

집_가격_예측

집_가격_예측

집_가격_예측

train_data_encoded.corr()
로그인 후 복사
로그인 후 복사

집_가격_예측

집_가격_예측

집_가격_예측

plt.figure(figsize=(15,8))
sns.heatmap(train_data_encoded.corr(), annot=True, cmap = "inferno")
로그인 후 복사
로그인 후 복사

집_가격_예측

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
로그인 후 복사
로그인 후 복사
#Read from the directory where you stored the data

data  = pd.read_csv('/kaggle/input/california-housing-prices/housing.csv')
로그인 후 복사
로그인 후 복사

집_가격_예측

data
로그인 후 복사
로그인 후 복사

해양_근접성
내륙 5183
바다 근처 2108
베이 1783 근처
섬 5
이름: 개수, dtype: int64

#Test to see if there arent any null values
data.info()
로그인 후 복사
로그인 후 복사

집_가격_예측

#Trying to draw the same number of null values
data.dropna(inplace = True)
로그인 후 복사
로그인 후 복사
data.info()
로그인 후 복사
로그인 후 복사

집_가격_예측

집_가격_예측

#From our data, we are going to train and test our data

from sklearn.model_selection import train_test_split

X = data.drop(['median_house_value'], axis = 1)
y = data['median_house_value']
로그인 후 복사
로그인 후 복사

집_가격_예측

y
로그인 후 복사
로그인 후 복사

집_가격_예측

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)
로그인 후 복사
로그인 후 복사
#Examining correlation between x and y training data
train_data = X_train.join(y_train)
로그인 후 복사
로그인 후 복사

집_가격_예측

train_data
로그인 후 복사
로그인 후 복사
로그인 후 복사

집_가격_예측

#Visualizing the above
train_data.hist(figsize=(15, 8))
로그인 후 복사
로그인 후 복사
#Encoding non-numeric columns to see if they are useful and categorical for analysis

train_data_encoded = pd.get_dummies(train_data, drop_first=True)
correlation_matrix = train_data_encoded.corr()
print(correlation_matrix)
로그인 후 복사
로그인 후 복사
train_data_encoded.corr()
로그인 후 복사
로그인 후 복사
plt.figure(figsize=(15,8))
sns.heatmap(train_data_encoded.corr(), annot=True, cmap = "inferno")
로그인 후 복사
로그인 후 복사
train_data['total_rooms'] = np.log(train_data['total_rooms'] + 1)
train_data['total_bedrooms'] = np.log(train_data['total_bedrooms'] +1)
train_data['population'] = np.log(train_data['population'] + 1)
train_data['households'] = np.log(train_data['households'] + 1)
로그인 후 복사
train_data.hist(figsize=(15, 8))
로그인 후 복사

0.5092972905670141

#convert ocean_proximity factors into binary's using one_hot_encoding
train_data.ocean_proximity.value_counts()
로그인 후 복사

집_가격_예측

#For each feature of the above we will then create its binary(0 or 1)
pd.get_dummies(train_data.ocean_proximity)
로그인 후 복사

0.4447616558596853

#Dropping afterwards the proximity
train_data = train_data.join(pd.get_dummies(train_data.ocean_proximity)).drop(['ocean_proximity'], axis=1)
로그인 후 복사

집_가격_예측

train_data
로그인 후 복사
로그인 후 복사
로그인 후 복사

집_가격_예측

#recheck for correlation
plt.figure(figsize=(18, 8))
sns.heatmap(train_data.corr(), annot=True, cmap ='twilight')
로그인 후 복사

0.5384474921332503

기계를 훈련시키는 것이 가장 쉬운 프로세스는 아니지만 위의 결과를 계속 개선하려면 param_grid 아래에 min_feature와 같은 더 많은 기능을 추가하면 최고의 추정기 점수가 지속적으로 개선될 수 있습니다.

여기까지 오셨다면 아래 댓글에 좋아요를 누르고 공유해 주세요. 여러분의 의견은 정말 중요합니다. 감사합니다!??❤️

위 내용은 집_가격_예측의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

뜨거운 기사 태그

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? Mar 10, 2025 pm 06:54 PM

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?

파이썬의 이미지 필터링 파이썬의 이미지 필터링 Mar 03, 2025 am 09:44 AM

파이썬의 이미지 필터링

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Mar 05, 2025 am 09:58 AM

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법

Python을 사용하여 PDF 문서를 사용하는 방법 Python을 사용하여 PDF 문서를 사용하는 방법 Mar 02, 2025 am 09:54 AM

Python을 사용하여 PDF 문서를 사용하는 방법

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Mar 02, 2025 am 10:10 AM

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Mar 10, 2025 pm 06:52 PM

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?

파이썬 객체의 직렬화 및 사제화 : 1 부 파이썬 객체의 직렬화 및 사제화 : 1 부 Mar 08, 2025 am 09:39 AM

파이썬 객체의 직렬화 및 사제화 : 1 부

파이썬에서 자신의 데이터 구조를 구현하는 방법 파이썬에서 자신의 데이터 구조를 구현하는 방법 Mar 03, 2025 am 09:28 AM

파이썬에서 자신의 데이터 구조를 구현하는 방법

See all articles