My Dev & Engineering Repository

다중 회귀(Characteristic Engineering and Regulation)

다중 회귀

여러개의 특성을 사용한 선형 회귀(Linear Regression)를 다중 회귀(Multiple Regression)이라고 부릅니다.

1개의 특성을 사용했을때, 선형 회귀 모델이 학습 하는것은 직선입니다. 2개의 특성을 사용하면 선형 회귀는 평면을 학습합니다.
왼쪽 그림이 1개의 특성을 사용한 선형 회귀 모델이 학습 하는 모델, 오른쪽 그림이 2개의 특성을 사용한 선형 회귀 모델입니다.

오른쪽 그림처럼 특성이 2개면 Target값과 함께 3차원 공간을 형성하고 선형 회귀 방정식은 평면이 됩니다.

Target = a x 특성1 + b x 특성2 + 절편

그러면 특성이 3개일 경우에는? 우리는 3차원 공간을 그리거나 상상할수 없습니다. 그렇지만, 특성이 많은 고차원에서는 선형회귀가 매우 복잡한 모델을 표현할 수 있습니다.
한번 3개의 특성을 각각 제곱해서 추가하고, 각 특성을 곱해서 새로운 특성을 만들겠습니다. 즉, 농어 길이 x 농어 길이 를 새로운 특성으로 만드는 겁니다. 이렇게 기존의 특성을 사용해서 새로운 특성을 뽑아내는 작업을 특성공학(Feature Engineering)이라고 합니다.

데이터 준비

이전과 달리 농어의 특성이 3개가 되었기 때문에, 일일이 데이터를 복사해서 붙이는건 번거롭습니다. 하지만, Pandas를 사용하면 간단합니다.
Pandas는 잘 알려진 데이터 분석 라이브러리중 하나이며, 데이터프레임은 판다스의 핵심 데이터 구조입니다.
Numpy 배열과 다차원 배열을 다룰수 있지만, 더 많은 기능을 제공합니다. 그리고 데이터프레임을 Numpy 배열로 쉽게 봐꿀수 있습니다. 한번 데이터를 불러와 보겠습니다.

# Pandas로 데이터 준비. csv 파일로 받아서 pandas dataframe -> numpy 배열로 변환

import pandas as pd

df = pd.read_csv('https://bit.ly/perch_csv_data')
perch_full = df.to_numpy()

print(perch_full[:5]) # perch_full 데이터가 너무 많아서 5개만 불러왔습니다. perch_full로 하면 다 볼수 있습니다.

[[ 8.4 2.11 1.41]
[13.7 3.53 2. ]
[15. 3.82 2.43]
[16.2 4.59 2.63]
[17.4 4.59 2.94]]

Target 데이터도 이전과 동일한 방식으로 가져오고, perch_full, perch_weight를 Training_set와 Test_set로 나눕니다.
이 데이터들을 사용해서 새로운 특성을 만들어 보겠습니다.

import numpy as np

perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

# Scikit-learn 훈련세트는 2차원 배열이여야 함으로, Numpy의 reshape method를 사용해서 2차원으로 봐꿔줌
# perch_full & perch_weight를 훈련 & 테스트 세트로 나눈다.
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, random_state=42)

Scikit-learn의 변환기

Scikit-learn은 특성을 만들거나 전처리 하기 위하여 다양한 클래스를 제공하는데, 이런 클래스를 변환기 (Transformer)라고 부릅니다.
변환기 Class는 fit(), transform() Method를 제공합니다.

추가로 LinearRegression 에서는 추정기, Transformer에서는 변환기 라고 부릅니다.
우리가 사용할 변환기는 PolynomialFeature Class입니다. 한번 사용해 보겠습니다. 그리고 이 클래스는 sklearn.preprocessing 패키지에 포함되어 있습니다.
그리고 PolynomialFeatures Class가 하는건? 별거 없어요. 하는게 특성 몇개인지, 2 x 3을 해서 어떤 조합으로 만드는지 파악하는 정도입니다.

from sklearn.preprocessing import PolynomialFeatures
# PolynomialFeatures(변환기) - degree라는 매개변수: 기본값이 2(제곱항을 만들어주는 표시)

# degree = 2 (3이면 3제곱(제곱항이 3)으로 한다.)
poly = PolynomialFeatures()
poly.fit([[2,3]])

# 1(bias), 2, 3, 2**2, 2*3, 3**2
print(poly.transform([[2,3]])) # 2,3 이라는 가상의 sample data
# 2,3:원래 있던 특성 그대로. 2-4, 3-9, 2*3-6. 1은 절편을 위한 특성44

[[1. 2. 3. 4. 6. 9.]]

fit() Method는 새롭게 만들 특성 조합을 찾고, Transform() Method는 실제로 데이터를 반환합니다.
여기서는 2개의 특성(원소)를 가진 샘플 [2,3]이 특성을 가진 샘플 [1, 2, 3, 4, 6, 9]로 봐뀌었습니다.
PolynomialFeature 클래스가 기본적으로 각 특성을 제곱한 항을 추가합니다. 관련 식을 아래에 첨부 하겠습니다.

무게 = a x 길이 + b x 높이 + c x 두께 + d x 1

관련 식을 보면, 특성은 (길이, 높이, 두께, 1)이 됩니다. 근데 1은 무엇일까요? 1은, 선형 방정식의 절편을 항상 값이 1인 특성과 곱해지는 계수 라고 볼 수 있습니다.
근데, Scikit-learn의 선형모델을 자동으로 절편을 추가함으로 굳이 이렇게 특성을 만들 필요가 없으므로, include_bias=False로 지정하여 다시 특성을 반환하겠습니다. 결과는 절편을 위한 항이 제거되고, 특성의 제곱과 특성끼리 곱한 항만 추가되었습니다.

# include_bias=False로 지정하여 다시 특성을 변환
poly = PolynomialFeatures(include_bias=False)
poly.fit([[2, 3]])
print(poly.transform([[2, 3]]))

[[2. 3. 4. 6. 9.]]

한번 이 방식으로 train_input에 적용시켜 보겠습니다. train_input을 변환한 데이터를 train_polu에 저장하고 배열의 크기를 확인해 보겠습니다.

poly = PolynomialFeatures(include_bias=False)

poly.fit(train_input) # fit(훈련)
train_poly = poly.transform(train_input) #train_poly(numpy 배열)

print(train_poly.shape)

(42, 9)

PolynomialFeatures 클래스는 9개의 특성이 어떻게 만들어졌는지 확인할수 있게 해줍니다.
get_feature_names_out() Method 를 사용하면 9개의 특성이 각각 어떤 조합으로 만들어 졌는지 알 수 있습니다.

poly.get_feature_names_out()

array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2', 'x2^2'], dtype=object)

‘x0’은 첫번째 특성을 의미하고
‘x0^2’는 첫번째 특성의 제곱,
‘x0 xl’은 첫번째 특성과 두번째 특성의 곱을 나타내는 식입니다.
이제 Test_set를 반환하고 변환된 특성을 이용하여 다중 회귀 모델을 훈련시키겠습니다.

# training_set에 사용한걸 test_set에 사용한다.
test_poly = poly.transform(test_input)

다중 회귀 모델 훈련하기

다중 회귀 모델을 훈련하는것은 선형 회귀 모델을 훈련하는 방식과 같습니다. 다만, 여려개의 특성을 이용해서 선형회귀를 수행하는것 뿐입니다. 한번 훈련시켜 보겠습니다.

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(train_poly, train_target)

print(lr.score(train_poly, train_target))

0.9903183436982125

1개의 특성을 사용한 선형회귀 모델보다 높은 점수가 나왔습니다. 이것은 특성이 늘어나면 선형회귀는 좋은 정확도를 가져온다는것을 볼수 있습니다. Test_set 점수도 확인해 보겠습니다.

print(lr.score(test_poly, test_target)) # 과소적합 문제 해결

0.9714559911594159

Test_set에 대한 점수는 1개의 특성을 사용한 선형회귀 보다 점수가 높아지지는 않았지만, 농어의 길이만 사용했을 때 있던 과소적합 문제는 해결되었습니다.
만약 여기서 특성을 더 많이 추가하면 어떻게 될까요? 3제곱, 4제곱, 5제곱 항을 넣는거죠.

PolynomialFeature 클래스의 degree 매개변수의 값을 변경하여 필요한 최대 차수를 지정할 수 있습니다. 5제곱 까지 특성을 추가해서 만들어보겠습니다.

poly = PolynomialFeatures(degree=5, include_bias=False) # 5제곱까지 특성을 만들어서 출력

poly.fit(train_input)
train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)

print(train_poly.shape)

(42, 55) # 데이터셋은 42개, 만들어진 특성의 개수가 55개

train_poly 배열의 열의 개수가 특성의 개수입니다. 이 데이터를 가지고 선형 회귀 모델을 다시 훈련시켜 보겠습니다.

lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))

0.999999999999769

정확도가 99%이상입니다. 완벽한 점수인데, Test_set 점수도 한번 보겠습니다.

# 음수가 뜨는 이유: training_set에 너무 과대 적합 되어서.
print(lr.score(test_poly, test_target))

-144.40490595353674

흠... 매우 큰 음수값이 나왔습니다. 이것은 Training_set에 너무 과대적합이 되어서 Test_set점수에는 매우 낮은 값을 만든것 같습니다.

규제 & 표준화

위의 글에서 보이듯이, 과대적합이 된 머신러닝 모델이 과도하게 학습하지 못하도록 막는것을 규제 라고 합니다.

즉, 모델이 훈련 세트에 과대적합되지 않도록 만드는 것 입니다. 선형 회귀 모델의 경우 특성에 곱해지는 계수(기울기)의 크기를 작게 만드는 것입니다.

그림을 보시면, 왼쪽은 규제를 설정하기 전의 데이터를 학습한 모델이고, 오른쪽은 규제를 적용해서 학습시킨 모델입니다.
그러면, 55개의 특성으로 훈련한 선형회귀 모델의 계수를 규제하여 훈련 세트의 점수를 낮추고 대신 테스트 점수를 높여보겠습니다.
근데, 규제를 적용하기 전에 정규화를 해야합니다. 특성의 스케일이 정규화가 되지 않으면? 곱해지는 계수값도 차이가 나이 때문에, 규제를 적용하면, 똑같이 제어가 되지 않을수도 있기 때문입니다.
이번에는 Scikit-learn에서 제공하는 StandardScaler 클래스를 사용해서 변환해 보겠습니다.

from sklearn.preprocessing import StandardScaler

ss = StandardScaler() # 객체 초기화 
ss.fit(train_poly) # 모델 훈련

train_scaled = ss.transform(train_poly)
test_scaled = ss.transform(test_poly)

이 코드는 StandardScaler 클래스의 객체 ss를 초기화 한 후, PolynomialFeature 클래스로 만든 train_poly 객체를 사용해서 훈련합니다.
Training_set로 학습한 변환기를 사용해서 Test_set도 변환 해야 합니다.
여기서 이제 선형회귀 모델에 규제를 추가한 모델에 대하여 설명을 해보겠습니다. 릿지(ridge) & 라쏘(Lasso)2개가 있는데, 릿지(ridge) 부터 설명하겠습니다.

Ridge(릿지) 회귀

Ridge(릿지) 회귀는 계수를 제곱한 값을 기준으로 규제를 적용합니다.

L2 규제, 다른 class에 L2규제가 적용됬을땐? 선형회귀에서는 릿지 회귀 라고 합니다.
릿지는 sklearn.linear_model 패키지 안에 있으며, 편리한것은 훈련 & 사용하는 방법이 같다는 것입니다.
모델 객체에서 fit() method로 훈련하고, score() method로 평가합니다.
앞서 준비한 train_scaled 데이터로 릿지 모델을 훈련해보겠습니다.

from sklearn.linear_model import Ridge

#alpha=1(1이면 강도 쎔, 0이면 강도 약함), 사전에 우리가 지정해야 되는 값임 - 이러한 값을 hyperparameter라고 부른다.
ridge = Ridge() 
ridge.fit(train_scaled, train_target)

print(ridge.score(train_scaled, train_target))

0.9896101671037343

선형회귀 에서 거이 99% 정확도가 나온반면, 점수가 조금 낮아졌습니다. 한번 Test_set 점수를 확인하겠습니다.

print(ridge.score(test_scaled, test_target))

0.9790693977615388

전의 선형회귀 모델 에서 점수가 음수가 나왔지만, 지금은 정상으로 돌아왔습니다.
릿지(Ridge)도 그렇고 라쏘(Lasso)도 그렇지만, 규제의 양을 임의로 조절할 수 있습니다. 모델의 객체를 만들때, alpha 매개 변수로 규제의 강도를 조절합니다.
만약 alpha 값이 크면 규제 강도가 세지므로 계수 값을 더 줄이고 과소적합 되도록 유도합니다.
alpha 값이 작으면 계수를 줄이는 역할이 줄어들고 선형회귀 모델과 유사해지므로, 과대적합(Overfitting)될 가능성이 큽니다.
그러면 어떻게 해야 적잘한 alpha 값을 찾을 수 있을까요?

적절한 규제 강도 찾기

적절한 alpha 값을 찾는 한가지 방법은, alpha 값에 대한 R^2의 그래프를 만들어보는 것입니다.

Matplotlib 라이브러리를 import 하고, alpha 값을 봐꿀때 마다, score() Method의 결과를 저장할 list를 만들어 보겠습니다.

import matplotlib.pyplot as plt
train_score = []
test_score = []

alpha 값을 0.001 부터 100까지 10배씩 늘려가며 릿지 회귀 모델을 훈련하고, Training_set & Test_set 점수를 list에 저장합니다.
그리고 train_score 와 test_score 리스트를 사용해서 그래프를 그립니다.
이 그래프도 x축은 log scale로 봐꿔서 그리겠습니다.

alpha_list = [0.001, 0.01, 0.1, 1, 10, 100] #보통은 7의 배수로 hyperparameter 범위 지정 및 훈련
for alpha in alpha_list:
    # alpha_list 안에 있는 값들로 하나씩 for문을 돌려가면서, 모델을 훈련합니다.
    ridge = Ridge(alpha=alpha)
    # 릿지 모델을 훈련합니다.
    ridge.fit(train_scaled, train_target)
    # 훈련 점수와 테스트 점수를 저장합니다.
    train_score.append(ridge.score(train_scaled, train_target))
    test_score.append(ridge.score(test_scaled, test_target))

plt.plot(np.log10(alpha_list), train_score) #log10 - log scale로 봐꿈
plt.plot(np.log10(alpha_list), test_score)
plt.xlabel('alpha')
plt.ylabel('R^2')
plt.show()

# alpha 값이 쎄지면 규제가 쎄져서, training_set score가 낮아짐, alpha값이 약해지면 반대
# 왼쪽은 과대적합, 오른쪽은 과소적합

그래프의 alpha 값을 0.001붜 100까지 10배씩 늘렸기 때문에, 그래프를 바로 그려버리면 그래프의 왼쪽이 너무 촘촘해 지므로 alpha_list에 있는 6개의 값을 동일한 간격으로 나타내기 때문에, log 함수를 지수로 표현해서 그래프를 그려보겠습니다.
0.001은 -3, 0.01은 -2, 100은 2. 이렇게 되는 형식입니다.

위의 파란색 그래프가 Training_set 그래프, 아래 노란색 그래프가 Test_set 그래프 입니다.
그래프의 왼쪽을 보면 Training_set, Test_set의 점수 차이가 큽니다. 이 모습은 과대적합의 전형적인 부분입니다.
오른쪽은 둘다 점수가 낮아지는 과소적합의 모습을 보입니다.
두 그래프가 가장 가깝고, 테스트 점수가 가장 높은 -1, 즉 10의 -1승. 0.1 입니다. alpha 값을 0.1로 해서 최종 모델을 훈련시켜 보겠습니다.

ridge = Ridge(alpha=0.1)
ridge.fit(train_scaled, train_target)

print(ridge.score(train_scaled, train_target))
print(ridge.score(test_scaled, test_target))

0.9903815817570366
0.9827976465386955

이 모델은 Training_set 점수와 Test_set 점수가 비슷하게 높고 과대적합, 과소적합 사이에서 균형을 맞추고 있습니다.
이번엔 라쏘(Lasso) 모델을 한번 보겠습니다.

라쏘(Lasso) 회귀

라쏘(Lasso) 회귀는 훈련하는것은 릿지(Ridge)와 방식이 비슷합니다. Ridge를 Lasso로 봐꾸는것이 다입니다.
다만, 라쏘 회귀의 특징은 가중차의 절대값에 제곱을 주어서 규제를 주는 방식입니다.

from sklearn.linear_model import Lasso

lasso = Lasso()
lasso.fit(train_scaled, train_target)
print(lasso.score(train_scaled, train_target))
print(lasso.score(test_scaled, test_target))

0.989789897208096
0.9800593698421884

Train, Test_set의 점수도 릿지 회귀만큼 좋습니다. 라쏘도 동일하게 alpha 매개변수로 규제의 강도를 조절할수 있습니다.

import matplotlib.pyplot as plt
train_score = []
test_score = []

alpha_list = [0.001, 0.01, 0.1, 1, 10, 100] #보통은 7의 배수로 hyperparameter 범위 지정 및 훈련
for alpha in alpha_list:
    # alpha_list 안에 있는 값들로 하나씩 for문을 돌려가면서, 모델을 훈련합니다.
    lasso = Lasso(alpha=alpha, max_iter=10000)
    # 라쏘 모델을 훈련합니다.
    lasso.fit(train_scaled, train_target)
    # 훈련 점수와 테스트 점수를 저장합니다.
    train_score.append(lasso.score(train_scaled, train_target))
    test_score.append(lasso.score(test_scaled, test_target))

plt.plot(np.log10(alpha_list), train_score) #log10 - log scale로 봐꿈
plt.plot(np.log10(alpha_list), test_score)
plt.xlabel('alpha')
plt.ylabel('R^2')
plt.show()

이 그래프의 특징도 왼쪽은 과대적합, 오른쪽은 과소적합을 보여줍니다.
그리고, 오른쪽으로 갈수록 훈련 세트, 테스트 세트의 점수가 좁혀지고 있습니다. 이 지점이 아마 과소적합되는 모델인거 같습니다.
라쏘 모델에서 최적의 alpha 값은 1, 즉 10의 1승=10입니다. 이 값으로 다시 모델을 훈련해 보겠습니다.

lasso = Lasso(alpha=10)
lasso.fit(train_scaled, train_target)

print(lasso.score(train_scaled, train_target))
print(lasso.score(test_scaled, test_target))

0.9888067471131867
0.9824470598706695

라쏘 모델도 과대적합을 잘 억제하고 테스트 세트의 성능을 크게 높인것을 알수 있습니다.
근데, 라쏘 모델의 계수값을 아에 0으로 만들 수 있는것을 알고 계신가요? 라쏘 모델의 계수는 coef_ 속성에 저장되어 있습니다.
한번 만들어 보겠습니다.

print(np.sum(lasso.coef_ == 0))

40

이것을 보면서 알 수 있는것은, 55개의 특성을 모델에 주입했지만 라쏘 모델이 사용한 특성은 15개 뿐이라는것을 알수 있습니다.
이러한 특징 때문에 라쏘(Lasso) 모델을 유용한 특성을 골라내는 용도로도 사용가능합니다.

Keywords

다중 회귀(Multiple Regression)는 여러 개의 특성을 사용하는 회귀 모델입니다. 특성이 많으면 선형 모델은 강력한 성능을 발휘합니다.
특성 공학 은 주어진 특성을 조합하여 새로운특성을 만드는 일련의 작업 과정입니다.
릿지(Ridge)는 규제가 있는 선형 회귀 모델 중 하나이며 선형 모댈의 계수를 작게 만들어 과대적합을 완화시겁니다. 릿지는비교적 효과가좋아널리 사용하는규제 방법입니다.
라쏘(Lasso)는 또 다른 규제가 있는 선형 회귀 모델입니다. 릿지와 달리 계수 값을 아예 0으로 만들 수 도있습니다.
하이퍼파라미터(Hyper-Parameter)는 머신러닝 알고리즘이 학습하지 않는 파라미터입니다. 이런 파라미터는 사람 이 사전에 지정해야 합니다. 대표적으로 릿지와 라쏘의 규제 강도 alpha 파라미터입니다.

핵심 패키지와 함수

pandas

read_csv()는 csv 파일을 로컬 컴퓨터나 인터넷에서 읽어 판다스 데이터프레임으로 변환하 는 함수입니다. 이 함수는 매우 많은 매개변수를 제공합니다. 그중에 지주 사용하는 매개변수 는 다음과 같습니다.
sep는 csv 파일의 구분자를 지정합니다. 기본값은 ‘콤마(,)’입니다.
header에 데이터프레임의 열 이름으로 사용할 csv 파일의 행 번호를 지정합니다. 기본적으로 첫 번째 행을 열 이름으로 사용합니다.
skiprows는 파일에서 읽기 전에 건너될 행의 개수를 지정합니다.
nrows는 파일에서 읽을 행의 개수를 지정합니다.

scikit-learn

PolynomialFeatures는 주어진 특성을 조합하여 새로운 특성을 만듭니다. degree는 최고 차수를 지정합니다. 기본값은 2입니다.
interaction_only가 True이면 거듭제곱 항은 제외되고 특성 간의 곱셈 항만 추가됩니다. 기본값은 False입니다.
include_bias가 False이면 절편을 위한 특성을 추가하지 않습니다. 기본값은 True입니다.
Ridge는 규제가 있는 회귀 알고리즘인 릿지 회귀 모델을 훈련합니다.
alpha 매개변수로규제의 강도를조절합니다. alpha 값이 클수록 규제가 세집니다. 기본값은 1입니다.
solver 매개변수에 최적의 모델을 찾기 위한 방법을 지정할 수 있습니다. 기본값은 ‘auto’이며 데이터에 따라 자동으로 선택됩니다.
- scikit-learn 0.17 버전에 추기된 ‘sag’는 획률적 평균 경사 하강법 알고리즘으로 특성과 샘플 수가 많을 때에 성능이 빠르고 좋습니다.
- scikit-learn 0.19 버전에는 ‘sag’의 개선 버전인 ‘saga’가 추가되었습니다.
random_state는 solver가 ‘sag’나 ‘saga’일 때 념파이 난수 시드값을 지정할 수 있습니다.
Lasso는 규제가 있는 회귀 알고리즘인 라쏘 회귀 모댈을 훈련합니다. 이 클래스는 최적의 모델을 찾기 위해 좌표축을 따라 최적회를 수행해가는 좌표 하강법 coordinate descent을 시용합니다.
alpha와 random_state 매개변수는 Ridge 클래스와 동일합니다.
max_iter는 알고리즘의 수행 반복 횟수를 지정합니다. 기본값은 1000입니다.

저작자표시 비영리 동일조건 (새창열림)

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

[혼공머신] Stochastic Gradient Descent (확률적 경사 하강법) (0)	2023.11.05
[혼공머신] Logistic Regression (로지스틱 회귀) (0)	2023.09.25
[혼공머신] Linear Regression (0)	2023.09.23
[혼공머신] K-최근접 이웃 회귀 (0)	2023.09.22
[혼공머신] 데이터 전처리 [데이터 다루기] (0)	2023.09.18

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Notice

다중 회귀(Characteristic Engineering and Regulation)

다중 회귀

데이터 준비

Scikit-learn의 변환기

다중 회귀 모델 훈련하기

규제 & 표준화

Ridge(릿지) 회귀

적절한 규제 강도 찾기

라쏘(Lasso) 회귀

Keywords

핵심 패키지와 함수

pandas

scikit-learn

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

SUBSCRIBE

Notice

다중 회귀(Characteristic Engineering and Regulation)

다중 회귀

데이터 준비

Scikit-learn의 변환기

다중 회귀 모델 훈련하기

규제 & 표준화

Ridge(릿지) 회귀

적절한 규제 강도 찾기

라쏘(Lasso) 회귀

Keywords

핵심 패키지와 함수

pandas

scikit-learn

'📈 Data Engineering > 🕹️ 혼공머신' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역