규제

회귀 분석에서 정규화는 모델의 과적합을 방지하기 위해 모델의 복잡성을 제한하는 기술입니다. 정규화는 모델이 예측을 할 때 사용되는 변수의 수를 줄이고 모델의 복잡성을 줄여 일반화 성능을 향상시키는 것을 목표로 합니다. 정규화는 주로 선형 회귀 모델에서 사용됩니다. 일반적으로 선형 회귀 모델에서 가중치(w)의 크기가 크면 모델이 과대적합될 가능성이 높습니다. 따라서 정규화는 가중치의 크기를 제한하여 모델의 과적합을 방지합니다.

선형 회귀 모델은 주로 L1 정규화(Lasso) 및 L2 정규화(Ridge)를 사용합니다. L1 정규화는 가중치의 절대값의 합을 최소화하여 가중치를 0으로 설정하는 효과가 있습니다. 이를 통해 불필요한 변수를 제거할 수 있습니다. L2 정규화는 가중치의 제곱합을 최소화하고 가중치를 작게 만들어 오버피팅을 방지하는 효과가 있습니다.


정규화를 도입하기 위해 난수를 생성하여 데이터 세트를 만들었습니다.

L1 정규화(Lasso)

올가미라고도 하는 것은 회귀 모델에 사용된 변수의 계수를 0으로 만드는 기술입니다. 이를 통해 불필요한 변수를 제거하고 모델의 복잡성을 줄일 수 있습니다. L1 정규화는 가중치 벡터의 절대값 합을 최소화하는 것을 목표로 합니다.

L1 정규화에 대한 표현식은 다음과 같습니다.
L1 정규화 = α ∑|w|

여기서 α는 정규화 강도를 제어하는 ​​하이퍼파라미터입니다. α가 0이면 정규화가 없는 일반 선형 회귀에 해당합니다. α가 증가하면 정규화 강도가 증가하여 가중치가 작아집니다. L1 정규화는 가중치 벡터의 일부 요소가 0으로 수렴할 확률을 높입니다. 이는 모델에서 해당 변수를 제외하는 것입니다. 따라서 특징 선택에 L1 정규화를 사용할 수 있습니다.

L1 정규화는 변수가 많은 모델에 특히 유용합니다. 변수가 많은 경우 가중치 벡터의 일부 요소는 너무 큰 값을 가질 수 있습니다. 이 경우 L1 정규화를 사용하여 가중치 벡터를 더 작게 만들 수 있습니다.


α 가중치에 따른 결과: Lasso

L2 정규화(릿지)

릿지 회귀라고도 하며 회귀 모델에 사용되는 변수의 계수를 줄이는 기법입니다. 이는 모델의 과적합을 방지하고 일반화 성능을 향상시킵니다. L2 정규화는 가중치 벡터의 제곱합을 최소화하는 것을 목표로 합니다.

L2 정규화에 대한 표현식은 다음과 같습니다.
L2 정규화 = α ∑w^2

릿지 회귀는 하이퍼파라미터 α를 사용하여 정규화 강도를 제어합니다. α가 크면 정규화 강도가 강하고 가중치가 작아집니다. α가 작으면 정규화 강도가 약하고 가중치가 커진다.

릿지 회귀에서 α는 일반 선형 회귀에서와 같이 0이 됩니다. 즉, 정규화가 없습니다. 따라서 모델의 가중치를 자유롭게 조정할 수 있습니다. 그러나 α가 커질수록 regularization strength는 증가하고 weight 값은 감소한다. 이는 모델에서 각 변수의 영향을 줄이기 위한 것입니다.

따라서 능선 회귀에서는 하이퍼파라미터 α의 값이 가중치 값에 미치는 영향을 제어할 수 있습니다. 능선 회귀 모델에서 적절한 α 값을 선택하면 좋은 예측 성능을 얻을 수 있습니다. 그러나 α 값이 너무 크면 모델에 과소적합되어 성능이 저하될 수 있고, α 값이 너무 작으면 모델에 과적합되어 성능이 저하될 수 있습니다. 따라서 α 값을 조정할 때 적절한 값으로 설정하는 것이 중요합니다.


α-가중치 후 결과: Grat

Lasso와 Ridge의 유사점과 차이점

함께:

  • 모두 회귀 모델에서 가중치 값을 제한하기 위한 정규화 방법입니다.
  • 정규화는 모델의 과적합을 방지하고 일반화 성능을 향상시킵니다.
  • 둘 다 하이퍼파라미터 α를 사용하여 정규화 강도를 제어합니다.

차이점:

  • Lasso는 L1 정규화를 사용하여 가중치 값을 0으로 만들 수 있습니다. 즉, Lasso는 변수 선택 기능을 수행할 수 있습니다. 이는 변수 간의 상호 작용이 거의 없을 때 유용합니다.
  • Ridge는 가중치 값을 더 작게 만들기 위해 L2 정규화를 사용합니다. Lasso와 달리 Ridge는 변수 선택을 수행하지 않습니다.
  • Lasso는 가중치가 작은 변수가 많고 나머지 변수는 가중치가 0에 가깝습니다. 이는 특정 변수가 예측에서 중요한 역할을 할 때 유용합니다.
  • Ridge는 모든 변수에 특정 가중치가 있음을 의미합니다. 이는 특정 변수가 예측에 미치는 영향이 크게 다르지 않을 때 유용합니다.

Lasso와 Ridge는 모델의 과적합을 방지하고 정규화를 통해 일반화 성능을 향상시키는 것을 목표로 합니다. Lasso는 변수 선택 기능을 실행하여 특정 변수의 중요성을 결정하는 데 유용하고 Ridge는 그에 따라 모든 변수를 조정하는 데 유용합니다.