본문 바로가기
수학 및 통계/PSDS

[PSDS] 정형화된 데이터의 요소

by 11car28z 2023. 9. 15.

데이터의 대부분은 정형화되지 않은 상태

이미지: RGB 컬러정보를 담은 픽셀의 집합

텍스트: 단어, 무의미한 문자를 순서대로 나열한 배열 / 구문과 하위 구문으로 이루어짐.

방문내역정보: 사용자가 앱웹을 이용하면서 만들어진 일련의 반응들을 배열형태로 모아둔 것

 

폭발적인 양의 원시데이터(raw data)를 활용 가능한 형태의 정보로 변환하기

 

정형데이터: 행과 열이 있는 테이블 데이터 (ex. 관계형 데이터베이스, 연구용으로 수집한 데이터)

수치형 데이터
숫자를 이용해 표현할 수 있는 데이터
범주형 데이터
가능한 범주 안의 값만을 취하는 데이터
연속형 데이터 이산 데이터 이진 데이터 순서형 데이터
풍속, 지속시간 사건의 발생 빈도 범주형 데이터 중
0,1 / , 아니오/,거짓
범주 안의 값들이 순위를 갖는 것

데이터 종류 정보 활용 => 계산 성능을 향상

 

데이터가 범주형이라는 정보가 통계 분석을 수행하는 방식을 결정

Pythonsklearn.preprocessing.OrdinalEncoder로 순서형 데이터를 지원

저장소와 인덱싱을 최적화하는데 사용

소프트웨어적으로 처리가능