반응형

이 글은 Kaggle의 머신러닝 입문 (Intro to Machine Learning) 강의를 번역/정리한 글입니다. 원문은 여기서 찾아보실 수 있습니다.

​이전 글은 아래에서 보실 수 있습니다.

파이썬 Pandas로 머신러닝 기초 배워보기 (1/5): https://ruins880.tistory.com/78

 

파이썬 Pandas로 머신러닝 기초 배워보기 (1/5)

이 글은 Kaggle의 머신러닝 입문 (Intro to Machine Learning) 강의를 번역/정리한 글입니다. 원문은 여기서 찾아보실 수 있습니다. Introduction 먼저, 머신러닝에서 모델이 어떻게 사용되는지 부터 시작하겠

ruins880.tistory.com


Selecting Data for Modeling

지금 우리가 가진 데이터는 너무 변수가 많습니다. 이렇게 많은 양의 데이터에서 이해가 가능한 정보를 빼내려면 어떻게 해야할까요? 일단, 느낌으로 변수를 몇 개 골라보겠습니다. 나중에는 통계적 방법으로 변수를 선택하는 것을 배우게 될 것입니다.

우리 데이터에서 변수를, 혹은 열을 고르려면 모든 열(column)들을 봐야겠죠. 다음의 코드로 DataFrame에서 모든 column을 볼 수 있습니다.

import pandas as pd
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns
# 멜버른 데이터에는 비어있는 값들이 있습니다 (어떤 집들에는 몇몇 변수들이 기록이 되어있지 않죠).
# 나중에 이러한 빠진 값들을 다루는 방법을 배울 것입니다.
# 아이오와 데이터에서 우리가 사용하는 열에는 빠진 값들이 없습니다.
# 그러므로 지금은 가장 간단하게, 값이 없는 집들을 애초에 빼버리겠습니다.
# 지금은 너무 신경쓰지 않아도 되지만, 코드는 다음과 같습니다:
# dropna 명령어는 비어있는 줄을 빼버립니다 (na는 "not available"이라고 생각하세요)
melbourne_data = melbourne_data.dropna(axis=0)

데이터의 일부분을 선택하는 데에는 여러가지 방법이 있습니다. Pandas 강의에 더 자세히 나와있지만, 지금은 두가지 방법을 사용하겠습니다.

1. Dot notation: "Prediction target"을 선택하는 데에 이용

DataFrame에서는 dot-notation을 이용하여 변수를 선택할 수 있습니다. 선택된 하나의 열은 Series 형태로 저장됩니다. 우리가 예측하고 싶은 변수인 prediction target을 이 방법을 사용하여 선택하고 y 변수에 저장해보겠습니다. 집값을 저장하는 코드는 다음과 같습니다:

y = melbourne_data.Price

2. Selecting with a column list: "feature"를 선택하는 데에 이용

모델에 입력하여서 나중에 예측하는 데에 사용되는 변수열들은 "features"라고 부릅니다. 우리 예제의 경우에는 이러한 features를 사용하여 prediction target인 집값을 결정하는 데 쓸 것입니다. 종종 우리가 가진 모든 변수들을 예측모델에 쓰기도 하지만, 어떤 경우에는 몇몇의 변수들만 선택하는 것이 더 나을 때도 있습니다.

지금은 몇 개의 중요한 feature들만 선택해 보겠습니다. 여러개의 feature를 선택하는 방법은 대괄호를 쓰는 것입니다. 각각의 feature 이름은 아래의 예제처럼 큰따옴표를 이용하여야 합니다.

melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

X에 저장된 데이터를 describe와 head 명령어로 살펴보겠습니다.

X.describe()
X.head()

이렇게 시각적으로 데이터를 살펴보는 과정은 아주 중요합니다. 데이터에서 어떤 것을 발견할 지 모르거든요.


Building Your Model (모델 만들어 보기)

모델을 만들기 위해 scikit-learn 라이브러리를 사용하겠습니다. 예제 코드에 나와있듯이, 실제 코딩에서는 sklearn으로 씁니다. Scikit-learn 라이브러리는 DataFrame 유형의 자료를 가지고 모델을 만드는 데에 가장 널리 쓰이는 라이브러리 입니다. 모델을 만들고 이용하는 과정은 다음과 같습니다:

​* Define (정의하기): 어떤 유형의 모델을 만들 것인가요? 처음에 배운 Decision Tree, 혹은 다른 새로운 모델?

* Fit (적합시키기): 제공된 데이터에서 패턴을 찾습니다. 가장 핵심인 단계입니다.

* Predict (예측하기): 말 그대롭니다.

* Evaluate (평가하기): 모델이 예측한 결과가 얼마나 정확한지 알아봅니다.

다음은 scikit-learn 라이브러리를 이용하여 모델을 정의하고 우리의 데이터에 적합시키는 예제 코드입니다.

from sklearn.tree import DecisionTreeRegressor
# 모델을 정의합니다. 매번 똑같은 결과를 얻기 위해 random_state에 숫자를 지정합니다.
melbourne_model = DecisionTreeRegressor(random_state=1)
# 모델을 데이터에 적합시킵니다.
melbourne_model.fit(X, y)

머신러닝에 쓰이는 많은 모델들은 그 적합과정에서 어느정도 무작위성(randomness)을 포함합니다. random_state로 숫자를 지정하면, 실행할 때마다 같은 결과를 가지도록 해줍니다. 이것은 좋은 습관이죠. 하지만 어떤 수를 지정하든 모델 자체에는 의미있는 변화를 주지는 않습니다.

실제로는, 지금 이미 집값이 나와있는 집 말고, 앞으로 매물이 나오는 집의 집값을 예측하는 것이 우리의 목표입니다. 하지만 지금은, 우리가 가지고 있는 데이터에서 집값이 어떻게 계산되는지 처음 몇 줄의 결과를 보겠습니다.

print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

다음은 직접 예제를 실행해 보겠습니다.


Kaggle은 따로 컴퓨터에 설치할 필요없이 웹상에서 파이썬 코드를 작성하고 실행시킬 수 있는 "notebook" 환경을 이용합니다. notebook 환경이 처음이신 분은 다음의 짧은 동영상을 보시면 됩니다: https://www.youtube.com/watch?v=4C2qMnaIKL4

지난 예제에서, 다음과 같이 데이터를 불러오고 확인하였습니다. 예제를 이어서 하기 위해 다음 코드를 실행시켜주세요.

Exercises

이번 예제는 직접 간단한 모델을 만들어 보겠습니다. 예제는 아래의 링크에서 직접해보실 수 있습니다. Kaggle 계정을 생성하시면 더 도움이 될 수 있습니다.

https://www.kaggle.com/kernels/fork/1404276

 

Step 1: Specify Prediction Target (예측할 타겟을 지정하기)

Step 2: Create X (X 변수 생성하기)

이제 이름이 X인 DataFrame을 생성하여 예측에 필요한 feature들을 저장할 것입니다.

원래의 데이터에서 일부분만 저장할 것이므로, 일단 X에 들어갈 열 이름들을 리스트로 만들어 보겠습니다. 다음의 변수 이름들을 사용해서 리스트를 만드세요.

* LotArea * YearBuilt * 1stFlrSF * 2ndFlrSF * FullBath * BedroomAbvGr * TotRmsAbvGrd

리스트를 만든 다음, 그것을 사용하여 DataFrame을 만들어 보세요.

Review Data(데이터 확인하기)

모델을 만들기 전, X를 출력하여 괜찮아 보이는지 확인해 봅시다.

Step 3: Specify and Fit Model (모델을 지정하고 적합화 시키기)

DecisionTreeRegressor를 생성하여 iowa_model을 저장하세요. sklearn 라이브러리를 불러오는 것도 잊지마세요. 그런 다음, X에 있는 데이터를 가지고, y에 저장한 모델을 적합화시키세요.

Step 4: Make Predictions (예측하기)

predict 명령어로 X를 사용하여 예측을 해봅시다. 결과는 predictions 변수에 저장하세요.

Think About Your Results (결과에 대하여 생각해보기)

head 명령으를 사용해 예측한 결과와 실제 집값을 비교해봅시다.

728x90
반응형
Posted by Gun들지마
반응형

이 글은 Kaggle의 머신러닝 입문 (Intro to Machine Learning) 강의를 번역/정리한 글입니다. 원문은 여기서 찾아보실 수 있습니다.


Introduction

먼저, 머신러닝에서 모델이 어떻게 사용되는지 부터 시작하겠습니다. 만약 당신이 통계 모델링이나 머신러닝을 공부한 적이 있다면, 처음에는 너무 쉬울 수도 있습니다.

이 강의에서는 다음과 같은 상황에서 모델링을 어떻게 하는지를 배워볼 것 입니다.:

당신의 사촌형은 부동산에 투자해서 많은 돈을 벌었습니다. 그는 당신이 데이터사이언스를 공부하는 것을 알고 사업제안을 하나 했습니다. 사업에 필요한 자본은 사촌형이 제공하고, 당신은 각각의 집이 얼마나 가치가 있는지 결정하는 모델을 만들어야 합니다. 당신은 사촌형에게 그동안은 어떻게 집의 가치를 정했냐고 물어봤지만, 사촌형은 그냥 감으로 결정했다고 합니다. 하지만 사촌형에게 더 자세히 물어보니, 사촌형은 과거에 자신이 본 집값들에 어떠한 패턴이 있고, 그 패턴을 이용해 새로운 주택의 가격을 결정하고 있었습니다.

머신러닝도 똑같은 방법으로 작동합니다. 먼저 Decision Tree라는 모델링 기법을 사용해 보겠습니다. 더 정확한 결과를 보여주는 복잡한 모델들이 있긴하지만, Decision tree는 이해하기 쉽고, 몇몇 다른 좋은 모델의 기반이 되기도 합니다.

​가장 간단한 Decision tree를 한번 보겠습니다.

위 모델은 집들을 침실이 두개 이상인지 아닌지의 두가지만으로 분류합니다. 여기서 결정된 가격 ($178000, $188000)은 그 분류항목에 속했던 모든 집들의 평균 가격으로 결정했습니다. 데이터를 이용해 집들을 두가지의 그룹으로 나누고, 그 다음 각각의 그룹에서 예상 가격을 결정합니다. 이렇게 데이터로부터 패턴을 잡아내는 것을 fitting 혹은 training이라고 합니다. 그리고 모델을 결정하기 위해 사용한 데이터는 training data라고 부릅니다. 모델이 어떻게 결정되는 지에 관한 자세한 사항들은 추후에 더 알아보기로 하고, 이제 우리는 새로운 데이터들을 이용해 다른 집들의 가격을 예측할 수 있습니다.

Improving the decision tree

다음 중 어느 Decision tree가 더 좋은 결과를 예측할 수 있을까요?

왼쪽의 Decision tree가 아마 더 말이 될 것입니다. 침실이 더 많은 집이 대체로 가격이 더 높기 때문이죠. 하지만 이 모델은 치명적인 단점이 있습니다. 그것은 침실 갯수 이외에 집값에 영향을 미치는 요인, 즉 화장실 갯수, 집 평수, 위치 등을 전혀 고려하지 않았기 때문입니다.

각 주택의 특징을 파악하여 Decision tree의 길을 따라가다보면 집값을 예측할 수 있습니다. 예측한 집의 가격은 트리의 가장 바닥에 있고, 예측을 가능하게 해주는 그 부분을 leaf라고 부릅니다.

다음은 실제 데이터를 관찰해 보겠습니다.


Using Pandas to Get Familiar With Your Data

(판다스를 이용하여 데이터에 익숙해지기)

모든 머신러닝 프로젝트의 첫 단계는 데이터에 익숙해지는 거십니다. 우리는 Pandas 라이브러리를 이용해보겠습니다. Pandas는 데이터 과학자들이 데이터를 조사하고 처리하는 데에 쓰는 도구입니다. 이 라이브러리를 다음과 같이 불러올 수 있습니다.

import pandas as pd

Pandas 라이브러리에서 가장 중요한 부분은 DataFrame입니다. 이 DataFrame에는 우리가 표로 알고있는 데이터를 저장할 수 있습니다. 엑셀의 시트나 SQL의 테이블과 비슷합니다. Pandas는 이러한 유형의 데이터로 우리가 원하는 대부분의 작업을 가능하게 만들어 줍니다. 예를 들어서 호주 멜버른의 주택 가격에 관한 데이터를 보겠습니다.

데이터를 읽어들여서 그 내용을 출력하는 명령어는 다음과 같습니다.

# 사용의 편의를 위해, 읽어들일 파일의 경로를 변수에 저장합니다.
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# 데이터를 읽어들여 melbourne_data 라는 변수에 DataFrame 형식으로 저장합니다.
melbourne_data = pd.read_csv(melbourne_file_path)
# 데이터의 개요를 출력합니다.
melbourne_data.describe()
 

다음은 직접 예제를 실행해 보겠습니다.


Kaggle은 따로 컴퓨터에 설치할 필요없이 웹상에서 파이썬 코드를 작성하고 실행시킬 수 있는 "notebook" 환경을 이용합니다. notebook 환경이 처음이신 분은 다음의 짧은 동영상을 보시면 됩니다:

https://www.youtube.com/watch?v=4C2qMnaIKL4


 

Exercise: Explore Your Data

이번 예제는 데이터를 DataFrame 형식으로 불러들여, 우리가 어떤한 데이터를 가지고 있는지 살펴보는 것입니다. 예제는 아래의 링크에서 직접해보실 수 있습니다. Kaggle 계정을 생성하시면 더 도움이 될 수 있습니다.

https://www.kaggle.com/kernels/fork/1258954

 

Kaggle Code

 

www.kaggle.com

STEP 1: 데이터 불러오기

STEP 2: 데이터 살펴보기

생각해 볼 점

예제에서 살펴봤듯이, 우리 데이터에서 가장 최근에 지은 집은 2010년에 지어졌습니다. 여기에는 두가지 가능성이 있습니다.

1. 2010년 이후로 새 집을 전혀 짓지 않았다.

2. 데이터가 작성된 일시가 아주 예전이라, 최근의 데이터는 반영이 되어있지 않다.

만약 그 이유가 1번이라면, 우리는 이 데이터를 신뢰할 수 있을까요? 만약 이유가 2번이라면 어떨까요? 데이터를 좀더 자세히 들여다보면 이유가 1번인지 2번인지 알 수 있을까요?

다음은 머신러닝 모델을 직접 만들어보겠습니다.

파이썬 Pandas로 머신러닝 기초 배워보기 (2/5): https://ruins880.tistory.com/79

 

파이썬 Pandas로 머신러닝 기초 배워보기 (2/5)

이 글은 Kaggle의 머신러닝 입문 (Intro to Machine Learning) 강의를 번역/정리한 글입니다. 원문은 여기서 찾아보실 수 있습니다. ​이전 글은 아래에서 보실 수 있습니다. 파이썬 Pandas로 머신러닝 기초

ruins880.tistory.com

 

728x90
반응형
Posted by Gun들지마