본문 바로가기
수학 및 통계/‎ISL with Python

[ISLP] 3장 Linear Regression

by 11car28z 2023. 8. 4.

3Linear Regression

선형 회귀

예측에 유용한 도구

선형 회귀 모델과 최소 제곱 접근법

 

1.광고 예산과 매출 사이에 관계가 있습니까?

데이터가 증거를 제공하는지 여부를 결정

광고비 지출과 매출 사이의 연관성

 

2.광고 예산과 판매 사이의 관계는 얼마나 강합니까?

 

3.판매와 관련된 미디어는 무엇입니까?

TV, 라디오, 신문 등 세 가지 미디어는 모두 다음과 관련이 있습니까

판매, 아니면 미디어 중 하나 또는 두 개만 연관되어 있습니까?

 

4.각 매체와 판매 사이의 연관성은 얼마나 됩니까?

특정 매체의 광고에 사용되는 모든 달러에 대해, 다음과 같이

매출이 얼마나 증가할까요?

 

5.향후 매출을 얼마나 정확하게 예측할 수 있습니까?

주어진 수준의 텔레비전, 라디오, 또는 신문 광고를 위해, 무엇을

매출에 대한 우리의 예측은 무엇이며, 이 예측의 정확도는 얼마입니까?

 

6.관계가 선형입니까?

광고와 광고 사이에 대략 직선적인 관계가 있다면-

다양한 미디어 및 매출에서 지출을 입력한 다음 선형 회귀 분석

적절한 도구입니다. 만약 그렇지 않다면, 여전히 트랜스가 가능할 수 있습니다

선형 회귀 분석을 수행할 수 있도록 예측 변수 또는 반응을 형성합니다

사용했어요.

 

7.광고 매체 간에 시너지 효과가 있습니까?

아마도 TV 광고에 50,000달러를 지출하고 라디오 광고에 50,000달러를 지출하는 것은 100,000달러를 할당하는 것보다 더 높은 매출과 관련이 있을 것입니다

텔레비전이나 라디오에 개별적으로. 마케팅에서, 이것은 알려져 있습니다

시너지 효과로서, 통계학에서 그것은 상호작용 효과라고 불립니다.

 

 

3.1 Simple Linear Regression

단일 예측 변수 X에 기초하여 정량적 반응 Y를 예측하는 매우 간단한 접근법

X에서 Y(또는 X에서 Y)로 회귀하고 있다

 

β0β1은 선형 모델에서 절편과 기울기 항을 나타내는 두 개의 알려지지 않은 상수입니다. 함께, β0β1은 모델 계수 또는 매개 변수로 알려져 있습니다. 일단 우리가 훈련 데이터를 사용하여 모델 계수에 대한 추정치 βω0βω1을 생성하면, 우리는 계산에 의한 TV 광고의 특정 값에 기초하여 미래의 매출을 예측할 수 있습니다

알 수 없는 매개 변수에 대한 추정 값을 나타내는 모자 기호 ˆ 또는 계수 또는 반응의 예측 값을 나타냅니다.

 

단일 예측 변수 X에 기초하여 정량적 반응 Y를 예측하는 매우 간단한 접근법

X에서 Y(또는 X에서 Y)로 회귀하고 있다

 

β0β1은 선형 모델에서 절편과 기울기 항을 나타내는 두 개의 알려지지 않은 상수입니다. 함께, β0β1은 모델 계수 또는 매개 변수로 알려져 있습니다. 일단 우리가 훈련 데이터를 사용하여 모델 계수에 대한 추정치 βω0βω1을 생성하면, 우리는 계산에 의한 TV 광고의 특정 값에 기초하여 미래의 매출을 예측할 수 있습니다

알 수 없는 매개 변수에 대한 추정 값을 나타내는 모자 기호 ˆ 또는 계수 또는 반응의 예측 값을 나타냅니다.

 

 

 

3.1.1 Estimating the Coefficients

 

the TV advertising budget and product sales

 

우리의 목표는 선형 모델에 대한 계수 추정치 β≥0 β≥1을 구하는 것입니다

 

우리는 결과 선이 n = 200 데이터 포인트에 가능한 한 가깝도록 절편 βθ0 및 기울기 βθ1을 찾고자 합니다.

 

 

지금까지 가장 일반적인 접근법은 최소 제곱 기준을 최소화하는 것을 포함합니다

 

ei = yi yˆi (ey의 오차)

최소 제곱 접근법은 RSS를 최소화하기 위해 βθ0βθ1를 선택합니다. 일부 미적분학을 사용하여 최소화자가 다음과 같음을 보여줄 수 있습니다.

회색선은 오차를 나타냄

 

이 경우 선형 적합치는 그림의 왼쪽에 있는 추세를 과대평가하지만 관계의 본질을 포착합니다.

우리는 β0β1의 여러 값에 대해 RSS를 계산했습니다

 

 

 

3.1.2 Assessing the Accuracy of the Coefficient Estimates

f함수가 선형 함수에 근사할 경우

 

식으로 표현할 수 있음.

 

우리는 일반적으로 오차항이 X와 독립적이라고 가정합니다.

 

종속 변수 = 반응 변수 = response

판매를 반응 변수로 사용하고 TV를 예측 변수로 사용하여 광고 데이터에 대한 RSS의 윤곽선 및 3차원 그림

빨간 점은 주어진 최소 제곱 추정치 β≥0 β≥1에 해당

 

최소제곱 회귀계수 추정치(3.4)는 최소제곱 직선(3.2)을 특징

 
 

왼쪽 패널의 빨간색 선은 실제 관계를 표시합니다,

f (X) = 2+3X인 반면 파란색 선은 최소 제곱 추정치입니다

 

오른쪽 패널에서 우리는 10개의 다른 데이터를 생성했습니다

(3.6)에 의해 주어진 모형에서 집합을 추출하고 해당 10개를 최소로 표시합니다

사각형 선. 동일한 실제 모형에서 생성된 서로 다른 데이터 세트는 최소 사각형 선이 약간 다르지만 관측되지 않은 모집단 회귀선은 변경되지 않습니다.

 

어떤 임의의 변수 Y의 모집단 평균 ε. 불행하게도, ε

알 수 없지만, Y, y1,..., ynn개 관측치에 접근할 수 있습니다,

 

선형 회귀에서 알려지지 않은 계수 β0 β1은 모집단 회귀선을 정의

 

계수 추정치는 최소 제곱선을 정의합니다.

 

 

엄청난 수의 데이터 세트에 대해 얻은 추정치를 평균화

-> 오른쪽 패널에서 각각 별개의 데이터 세트로부터 추정된 많은 최소 제곱선의 평균이 실제 모집단에 꽤 가깝다

 

µˆ의 표준 오차를 계산

 

표준 오차는 우리에게 이것의 평균적인 양을 알려줍니다

추정치 µ는 실제 µ의 값과 다릅니다.

편차는 n으로 축소됩니다. 관측치가 많을수록 작아집니다

 

표준 오차를 계산

선형 회귀에 대한 95% 신뢰 구간

 

귀무가설H0 vs 대립가설 H1

 

 

작은 p-value는 그러한 상당한 연관성을 관측할 가능성이 없음을 나타냄

->귀무가설을 기각

 

 

3.1.3 Assessing the Accuracy of the Model

(1) Residual Standard Error

각 관측치와 관련된 것은 오차항

RSE는 의 표준 편차의 추정치 = 종속변수가 실제 회귀선에서 벗어날 평균 양

RSE 작다 = 모델이 데이터에 적합하다.

RSE 크다 = 모델이 데이터에 적합하지 않다.

 

(2)R^2 Statistic

적합도에 대한 대체 측도를 제공

항상 01 사이의 값을 가지며 Y의 척도와는 독립적

 

X를 사용하여 설명할 수 있는 Y의 변동성

 

항상 01 사이에 있기 때문에 RSE보다 해석상 이점이 있습니다

 

XY 사이의 선형 관계에 대한 측도입니다.

 

선형 모형의 적합도를 평가하기 위해 R2 대신 r = Cor(X, Y)를 사용할 수 있음

단순 선형 회귀 설정에서는 R2 = r 2. , 제곱 상관 관계와 R2 통계량이 동일하다

 

 

상관 관계가 더 많은 수의 변수 사이보다는 단일 변수 쌍 사이의 연관성을 정량화하기 때문에 예측 변수와 반응 사이의 상관 관계 개념은 자동적으로 이 설정으로 확장되지 않습니다

3.2 Multiple Linear Regression

단순 선형 회귀 모형(3.5)을 확장하여 여러 예측 변수를 직접 수용할 수 있도록 하는 것이 더 나은 접근법입니다. 우리는 단일 모형에서 각 예측 변수에 대해 별도의 기울기 계수를 부여함으로써 이 작업을 수행할 수 있습니다.

 

 

3.2.1 Estimating the Regression Coefficients

최소화하는 βθ0, βθ1,...,βθp 값은 다중 최소제곱 회귀 계수 추정치

다중 회귀 계수 추정치는 행렬 대수를 사용하여 가장 쉽게 표현되는 다소 복잡한 형태

 

3.2.2 Some Important Questions

반응 변수와 예측 변수 사이에 관계가 있습니까?

우리는 반응과 예측 변수 사이에 관계가 있는지 여부를 간단히 확인

p 예측 변수가 있는 다중 회귀 설정에서 우리는 모든 회귀 계수가 0인지 체크

 

반응과 예측 변수 사이에 관계가 없을 때는 F-통계량이 1에 가까운 값을 가질 것으로 예상

 

 

중요 변수 결정

(1)전방 선택입니다. null 모델부터 시작하겠습니다. 연결되는 모델입니다

절편을 유지하지만 예측 변수는 없습니다. 그런 다음 p 단순 선형 재결합을 적합시킵니다

결과를 나타내는 변수를 null 모델에 추가합니다

가장 낮은 RSS. 그런 다음 결과를 나타내는 변수를 모델에 추가합니다

새로운 2변수 모델에 대한 가장 낮은 RSS. 이 접근법은

일부 중지 규칙이 충족될 때까지 계속됩니다.

 

(2)역선택입니다. 모델의 모든 변수부터 시작합니다

p-값이 가장 큰 변수(, 변수)를 제거합니다

이것은 통계적으로 가장 덜 중요합니다. 새로운 (p - 1)-변수 모형이 적합하고, p-값이 가장 큰 변수는 제거됩니다. 이 절차는 중지 규칙에 도달할 때까지 계속됩니다. 예를 들어, 모든 나머지 변수가 일부 임계값보다 낮은 p-값을 가질 때 중지할 수 있습니다.

 

(3)혼합 선택. 이것은 전방 선택과 후방 선택의 조합입니다. 우리는 모형에 변수가 없는 것부터 시작하고 전방 선택과 마찬가지로 가장 적합한 변수를 추가합니다. 우리는 계속해서 변수를 하나씩 추가합니다. 물론 우리가 광고 예제에서 언급했듯이 변수에 대한 p-값은 새로운 예측 변수가 모형에 추가됨에 따라 커질 수 있습니다. 따라서 어느 시점에서 모형에 있는 변수 중 하나에 대한 p-값이 일정 이상으로 상승하면

임계값을 선택한 다음 모델에서 해당 변수를 제거합니다. 모델의 모든 변수가 충분히 낮은 p-값을 가질 때까지 전진 및 후진 단계를 계속 수행하고 모델에 추가할 경우 모델 외부의 모든 변수가 큰 p-값을 가질 수 있습니다.

 

모델 적합

모델 적합도의 가장 일반적인 두 가지 수치 측정값은 RSE

R2, 분산의 분율을 설명합니다. 이 양들은 계산되고

단순 선형 회귀 분석과 동일한 방식으로 해석됩니다.

단순 회귀 분석에서 R2는 상관 관계의 제곱입니다

반응과 반응 사이의 상관 관계의 제곱인 Cor(Y, YΩ)2 -> 실제로 적합된 선형 모형의 한 특성은 가능한 모든 선형 모형 사이에서 이 상관 관계를 최대화한다는 것입니다.

 

R2 값이 1에 가깝다는 것은 모형이 반응 변수의 분산의 많은 부분을 설명

 

p의 증가에 비해 RSS의 감소가 작으면 더 많은 변수가 더 높은 RSE를 가질 수 있습니다.

4. 예측

계수 추정치는 β0, β1,...,βpβ0, β1,...,βp에 대한 추정치입니다.

, 최소 제곱 평면은 실제 모집단 회귀 평면에 대한 추정치일 뿐입니다

 

모델의 임의 오차 때문에 (X)를 안다고 해도, 즉 참값을 안다고 해도

β0, β1,...,βp반응 값을 완벽하게 예측할 수 없습니다

 

예측 간은 항상 신뢰 구간보다 넓습니다. 왜냐하면

f(X)(축소 가능)에 대한 추정치의 오차를 모두 포함합니다

 

신뢰 구간을 사용하여 주변의 불확실성을 정량화

 

예측 구간은 신뢰 구간보다 상당히 넓다

 

3.3 Other Considerations in the Regression Model

3.3.1 Qualitative Predictors

 

(1) Predictors with Only Two Levels

정성적 예측 변수

정성적 예측 변수 (또는 요인) 요인 수준 더미 변수가 두 수준 또는 가능한 값만 있다면, 회귀 모형에 통합하는 것은 매우 간단합니다. 우리는 단순히 두 개의 가능한 수치를 갖는 지시 변수 또는 더미 변수를 만듭니다.

 

ex)

자체 변수를 기반으로 다음과 같은 형식을 사용하는 새 변수를 생성

 

회귀 방정식에 예측 변수로서 이 변수를 사용

β0는 소유하지 않은 사람들의 평균 신용카드 잔액

β0 + β1은 소유한 사람들의 평균 신용카드 잔액

β1은 소유자와 비소유자 사이의 신용카드 잔액의 평균 차이

 

더미 변수에 대한 p-값이 매우 높다는 것을 주목하십시오. 이것은

평균 신용카드의 차이에 대한 통계적 증거가 없다는 것

 

 

(2) Qualitative Predictors with More than Two Levels

β0은 동양인의 신용카드 평균잔액, β1은 동양인의 평균잔액, β2는 서양인, 양인의 평균잔액의 차이

 

두 더미 변수에 대한 계수 추정치와 관련된 p-값은 매우 커서 남쪽과 동쪽 사이 또는 서쪽과 동쪽 사이의 평균 신용카드 잔액의 실제 차이에 대한 통계적 증거가 없음을 시사

 

 

개별 계수에 의존하는 대신 F -test를 사용하여 H0를 검정

양적 예측 변수와 질적 예측 변수를 모두 포함할 때 어려움이 없습니다.

 

3.3.2 Extensions of the Linear Model

가장 중요한 가정 중 두 가지는 예측 변수와 반응 사이의 관계가 가산적이고 선형적이라고 말합니다.

가산성 가정은 예측 변수 Xj와 반응 변수 사이 연관성이 다른 예측 변수들의 값에 의존하지 않는다는 것을 의미합니다. 선형성 가정은 Xj의 값에 관계없이 Xj의 단위 변화와 관련된 반응 Y의 변화가 일정하다는 것을 의미합니다.

 

(1)Removing the Additive Assumption

ex) TV의 기울기 항이 라디오가 증가함에 따라 증가하도록 광고합니다. 이러한 상황에서 고정 예산이 $100,000인 경우, 라디오에 반을 쓰고 TV에 반을 쓰는 것은 TV나 라디오에 전체 금액을 할당하는 것보다 매출을 더 증가시킬 수 있습니다. 마케팅에서 이것은 시너지 효과로 알려져 있고 통계학에서 이것은 상호작용 효과라고 불립니다.

 

X2의 값에 관계없이 X1의 단위 증가는 Yβ1 단위 증가와 관련

여기서 β1 = β1 + β3 X2입니다. β1은 이제 X2의 함수이므로 X1Y 사이의 연관성은 더 이상 일정하지 않습니다. X2의 값의 변화는 X1Y 사이의 연관성을 변화시킬 것입니다. 비슷한 주장은 X1의 값의 변화가 X2Y 사이의 연관성을 변화시킨다는 것을 보여줍니다.

 

(2)Non-linear Relationships

다항식 회귀를 이용하여 비선형적인 관계를 수용하기 위해 선형모형을 직접 확장하는 매우 간단한 방법

 

선형 모형에 비선형 연관성을 통합하기 위한 간단한 접근법은 변형된 형태의 예측 변수를 포함

 

3.3.3 Potential Problems

fit a linear regression modelProblems

1. Non-linearity of the response-predictor relationships.

 

2. Correlation of error terms.

 

3. Non-constant variance of error terms.

 

4. Outliers.

 

5. High-leverage points.

 

6. Col linearity.