본문 바로가기
수학 및 통계/‎ISL with Python

3.4~

by 11car28z 2023. 8. 13.

3.4 마케팅 플랜

3장을 시작하면서 언급했던 질문

1.x와 y 사이의 상관관계가 있는가?

독립변수에 따른 종속변수의 회귀모델을 적합하고 귀무가설을 검정하기

F-통계량은 귀무가설을 기각해야하는지 결정하는데 사용

p-값을 보고 상관 관계 존재의 유무를 판단

 

 

2.x와 y 사이의 얼마나 강한 상관관계가 있는가?

모델 정확도를 나타내는 2가지 방법

RSE: 모회귀선으로부터 반응변수의 표준편차 추정

통계량: 설명변수에 의해 설명되는 반응변수의 변동을 백분율로 기록

 

 

3.x1, x2, x3.. 중 어느것이 y에 기여를 하는가?

각 설명변수의 t-통계량과 연관된 p-값을 조사

p-값이 낮으면 상관관계 존재

 

 

4.y에 대한 x의 효과를 얼마나 정확히 추정할 수 있는가?

의 표준오차는

에 대한 신뢰구간을 구하는데 사용

 

신뢰구간이 좁고 영과 멀리 떨어짐 = 변수가 통계적으로 유의함.

신뢰구간이 영을 포함 = 변수가 통계적으로 유의하지 않음.

 

공선성은 매우 넓은 표준 오차 초래

 

공선성 = VIF값으로 판단

 

 

5.미래의 y값에 대해 얼마나 정확하게 추정할 수 있는가?

 

반응변수 값을 예측하는데 사용하는 식

 

개별 반응 변수

값 예측 = 예측 구간 -> 축소불가능 오차

와 관련된 불확실성 포함 = 항상 신뢰구간보다 넓음.

평균 반응 변수

값 예측 = 신뢰 구간

 

6.상관관계가 선형인가?

잔차그래프 – 비선형성을 식별

 

상관관계가 선형 = 잔차 그래프에 패턴X

 

 

7.x1, x2, x3.. 사이에 시너지가 있는가?

표준선형회귀모델 = 설명변수들과 반응변수 사이에 가산적 상관관계 가정

 

가산적모델 = 반응변수에 대한 각 설명변수의 효과가 다른 설명변수들의 값과 상관X

 

가산적인 자료는 현실적이지 않음

 

상호작용 항과 연관된 p-값이 작음 = 이러한 상관관계 존재

 

 

3.5 선형회귀와 K-최근접 이웃의 비교

3.6 LAB: 선형회귀

3.6.1 라이브러리

3.6.2 단순선형회귀

3.6.3 다중선형회귀

3.6.4 상호작용 항

3.6.5 설명변수의 비선형 변환

3.6.6 질적 설명변수

3.6.7 함수의 작성

 

https://colab.research.google.com/drive/1zOr-BTsTK80YiE-p1HQ9Wde1wTQ8UjBZ?usp=sharing 

 

3LinearRegression

Colaboratory notebook

colab.research.google.com

 

3.7 연습문제