Notice
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 패스트캠퍼스 부트캠프
- 패스트캠퍼스부트캠프
- vscode 확장프로그램
- 데이터분석
- CSS
- korean lanquage pack for vscode (vscode용 한국어 팩)
- CSS 줄바꿈
- Color Highlight
- 패스트캠퍼스 후기
- 패스트캠퍼스국비지원
- 말줄임표 심볼 html
- 브라우저 동영상 너비 맞춤
- 패스트캠퍼스데이터분석부트캠프
- CSS 말줄임
- 데이터분석부트캠프
- 패스트캠퍼스데이터분석캠프
- 외부에서 localhost 접속하기
- 엑셀
- 데이터분석엑셀
- 패스트캠퍼스
- node js localhost 외부접속
- 국비지원
- 마크업 id class 네이밍
- 줄임문자
- [Deprecated] Bracket Pair Colorizer 2
- 가상선택자
- 패스트캠퍼스 국비지원
- Live share
- localtunnel
- 동영상 너비
Archives
- Today
- Total
시간과 공간
[패캠 부트캠프8기] 데이터 분석을 위한 기초 수학/통계 본문
※ 본 내용은 [패스트캠퍼스 : 데이터 분석 부트캠프 8기 - 데이터 분석을 위한 기초 통계 완전 정복] 강의 내용을 기반으로 작성하였습니다. 내용 복사 및 인용하여 게시글 작성 시 출처 작성 부탁드립니다.
데이터 분석을 위한 기초 수학/통계
💡 궁극적인 목표
⇒ 확률과 통계의 개념을 빠르게 정리
⇒ 통계적 방법론을 활용하여 분석 기법을 활용
- 기본적인 용어와 개념을 이해
- 수식 자체보다는 수식에 담긴 직관적인 의미를 전달
- 수식은 엑셀 실습을 통해서 통계량을 산출
- 차트를 통한 시각화, 그리고 통계량에 대한 해석
PART1. 비전공자도 기본적인 통계 기초가 필요한 이유
- OKR, KPI 등 지표를 통한 방법론
- 적절한 지표를 선정하는 방법과 기준
- Growth Marketing(performance marketing)
⇒ 비즈니스의 근거가 되는 데이터 수치는 이미 다양한 도구를 통해서 수집, 가공, 시각화가 이루어지고 있다.
⇒ 데이터를 기반으로 수많은 의사결정을 수행하는 것은 더 이상 데이터 직군 종사자만의 일이 아니다.
⇒ 실무적 요구 능력
- 통계 수치를 해석
- 올바른 인과 관계 분석
- 인사이트 를 도출하는 일
PART2. 데이터 분석 단계 및 탐색적 데이터 분석(EDA)
데이터 분석 단계
- 데이터 분석 기획
- 비즈니스 이해 및 목표 설정
- 프로젝트 정의
- 데이터 수집 및 정제
- 분석에 필요한 데이터 수집 방법 확인
- 데이터 전처리, 검증 : 수집된 데이터의 정합성, 무결성 등을 검증
- 데이터 분석 모델링
- 탐색적 데이터 분석(EDA) : 통계량 확인 및 시각화를 통한 데이터의 특성을 파악
- 모델링 : 예측을 위한 수학적, 통계적 모델링
- 평가 및 결론 도출
- 모델링을 통해 생성된 결과를 활용하여 결론 도출
- 성능에 대한 평가
- 도메인에 따라, 비즈니스적 요구에 따라 성능의 기준은 달라진다.
- 상황에 따라 위의 과정을 수정해 가며 성능을 개선한다.
- 분석 결과의 활용
- 시스템 구현
- 주기적으로 업데이트
- 비즈니스 인사이트
- 의사 결정에 도움을 준다.
- 시각화( 대시보드 등)
- 서비스에 활용
- 모델을 활용하여 서비스에 적용된다.
- 시스템 구현
탐색적 데이터 분석(EDA)
- Exploratory Data Analysis, EDA
- 기초적인 통계개념으로 데이터 전체를 파악
- 데이터의 형질에 대한 도메인 개념 축적
- 전처리의 방향성 제시
- 데이터 전처리
- 데이터 분석에 앞서 전처리 과정을 통한 데이터 가공 및 변환
- 분포를 확인할 때 함께 확인해야하는 수치
- 분포의 중심 : 평균, 중위값, 최빈값 등
- 퍼짐 정도
- 분산, 표준편차, 사분위수, 변동계수
- 분포의 모양(비대칭성)
- 왜도(skewness), 첨도(kurtosis)
데이터 탐색과 통계 공부 필요성
통계 기법 2가지 예시
- 기술 통계 : 요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터를 탐색한다. (관측된 데이터의 특성을 파악하기 좋다.)
- 추론 통계 : 추출한 표본의 통계량 관찰 및 분석 기법을 활용하여 모집단을 추론한다.
⇒ 통계 공부는 수치로 부터 올바른 정보를 추출해 내기 위한 수단이다.
데이터 탐색 과정의 목적
- 어떤 변수가 결론에 많은 영향을 미치는지
- 유의미한 변수 탐색
- 변수 간의 독립성 확보
- 의미 없는 데이터 제거(효율성, 차원 축소)
- 변수의 분포에 따라 사용할 수 있는 통계적 방법론 선택
상관분석
t-test
- 모집단의 분산값을 모를때모를 때 사용한다.(주로 모집단의 분산값을 모를 때가 많아 주로 사용한다.)
- 두 집단의 평균을 비교, 평균의 차이에서 의미를 찾기 위해 사용한다.
- p-value를 기준으로 대립가설(유의미한 차이가 있다), 귀무가설(차이가 없다) 을 구분한다.
- p-value는 귀무가설이 참이라고 주장할 수 있는 값들이 실제로 관측될 확률이다.
회귀분석
- 둘 이상의 변수 사이에 어떠한 관계가 있는지 보여주는 통계 기법이다.
- 종속 변수(결과 변수)에 영향을 미치는 독립 변수(원인 변수)의 영향력을 판단 가능하다.
- 다만, 두 변수의 인과관계는 설명해주지는 못한다.
시계열 데이터 분석
(강의 외 참고했던 링크 => https://playinpap.github.io/easypeasy-time-series-01/ )
PART3. 무작정 따라하는 엑셀 데이터 탐색 실습
데이터 시각화
1. 기본 차트 작성(막대 / 꺾은선 / 원형)
2. 심화 차트 작성(콤보 / 거품 / 폭포형)
3. 조건부 서식의 활용
'데이터 분석' 카테고리의 다른 글
[패캠 부트캠프8기] Python - Numpy (0) | 2023.03.23 |
---|---|
[패캠 부트캠프8기] SQL, Python (0) | 2023.03.13 |
[패캠 부트캠프8기] Business Analyst를 위한 핵심 SQL 실전 (0) | 2023.03.10 |
[패캠 부트캠프8기] 엑셀 프로젝트 특강(2) (0) | 2023.02.23 |
[패캠 부트캠프8기] 엑셀 프로젝트 특강(1) (0) | 2023.02.22 |
Comments