본문 바로가기

분류 전체보기73

[PSDS] 두 개 이상의 변수 탐색하기 실습 육각형 구간. 등고선 | 분할표 | 상자그림, 바이올린 도표 | 조건화¶ 1단계 : 데이터 로드하기¶ In [ ]: from google.colab import drive drive.mount('/content/drive') Mounted at /content/drive 2단계: 데이터 확인하기¶ In [ ]: KC_TAX_CSV = '/content/drive/MyDrive/통계공부/PSDS/data/kc_tax.csv.gz' In [ ]: import pandas as pd kc_tax = pd.read_csv(KC_TAX_CSV) In [ ]: #데이터 필터링하기 kc_tax0 = kc_tax.loc[(kc_tax.TaxAssessedValue 100) & (kc_tax.SqFtTotLi.. 2023. 9. 28.
[PSDS] 두 개 이상의 변수 탐색하기 일변량 분석: 한 번에 하나의 변수를 다룸. 평균, 분산 이변량 분석: 두 변수를 비교 상관 분석 다변량 분석: 셋 이상의 변수를 다룸 분할표, 육각형 구간, 등고도표, 바이올린 도표 육각형 구간과 등고선(수치형 변수 대 수치형 변수를 시각화) 산점도는 데이터 개수가 적을떄 괜찮음 육각형 구간: 기록값을 육각형 모양의 구간으로 나누고 기록값의 개수에 따라 색 표시 등고선: 두 수치형 변수 사이의 관계를 시각화하기 위해 산점도 위에 사용, 꼭대기로 갈 수 록 밀도가 높음. 범주형 변수 대 번주형 변수 분할표: 범주별 빈도수 기록 범주형 변수 대 수치형 변수 상자그림: 범주형 변수에 따라 분류된 수치형 변수 분포 시각화 바이올린 도표: y축을 따라 밀도추정 결과를 동시에 시각화 다변수 시각화하기 조건화: 산.. 2023. 9. 27.
[PSDS] 상관관계 실습 피어슨 상관계수 | 산점도¶ 1단계 : 데이터 로드하기¶ In [ ]: from google.colab import drive drive.mount('/content/drive') Mounted at /content/drive 2단계: 데이터 확인하기¶ In [ ]: SP500_SECTORS_CSV = '/content/drive/MyDrive/통계공부/PSDS/data/sp500_sectors.csv' SP500_DATA_CSV='/content/drive/MyDrive/통계공부/PSDS/data/sp500_data.csv.gz' In [ ]: import pandas as pd sp500_sym = pd.read_csv(SP500_SECTORS_CSV) sp500_px = pd... 2023. 9. 26.
[PSDS] 상관관계 탐색적 데이터 분석: 예측값들간 / 예측값과 목푯값의 상관관계 조사 상관관계(=피어슨 상관계수): 두 변수 사이의 상관관계를 항상 같은 척도에 놓고 추정 변수1과 변수2 각 평균으로부터 편차들을 서로 곱한 값들의 평균을 각 변수의 표준편차의 곱으로 나누기 상관계수는 +1 ~ -1에 존재 대각원소는 모두 1, 대각원소 아래는 대칭행렬 양의 상관관계 음의 상관관계 상관관계 0 = 아무런 상관성이 없음 우연히 상관계수가 양수, 음수가 될 수 있음. 변수들이 선형적인 관계X = 상관계수는 유용한 측정 지표X 산점도 산점도: 두 변수 사이의 관계 시각화 2023. 9. 25.