데이터의 대부분은 정형화되지 않은 상태
이미지: RGB 컬러정보를 담은 픽셀의 집합
텍스트: 단어, 무의미한 문자를 순서대로 나열한 배열 / 구문과 하위 구문으로 이루어짐.
방문내역정보: 사용자가 앱웹을 이용하면서 만들어진 일련의 반응들을 배열형태로 모아둔 것
폭발적인 양의 원시데이터(raw data)를 활용 가능한 형태의 정보로 변환하기
정형데이터: 행과 열이 있는 테이블 데이터 (ex. 관계형 데이터베이스, 연구용으로 수집한 데이터)
| 수치형 데이터 숫자를 이용해 표현할 수 있는 데이터 |
범주형 데이터 가능한 범주 안의 값만을 취하는 데이터 |
||
| 연속형 데이터 | 이산 데이터 | 이진 데이터 | 순서형 데이터 |
| 풍속, 지속시간 | 사건의 발생 빈도 | 범주형 데이터 중 0,1 / 예, 아니오/참,거짓 |
범주 안의 값들이 순위를 갖는 것 |
데이터 종류 정보 활용 => 계산 성능을 향상
데이터가 범주형이라는 정보가 통계 분석을 수행하는 방식을 결정
Python은 sklearn.preprocessing.OrdinalEncoder로 순서형 데이터를 지원
저장소와 인덱싱을 최적화하는데 사용
소프트웨어적으로 처리가능
'수학 및 통계 > PSDS' 카테고리의 다른 글
| [PSDS] 데이터 분포 탐색하기 (0) | 2023.09.21 |
|---|---|
| [PSDS] 예제:인구에 따른 살인 비율의 위치 추정 (0) | 2023.09.18 |
| [PSDS] 위치 추정 (0) | 2023.09.17 |
| [PSDS] 테이블 데이터 (0) | 2023.09.16 |
| [PSDS] CHAPTER 1 탐색적 데이터 분석 (0) | 2023.09.14 |