[패캠 부트캠프8기] 데이터 분석을 위한 기초 수학/통계

Notice

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

시간과 공간

[패캠 부트캠프8기] 데이터 분석을 위한 기초 수학/통계 본문

데이터 분석

[패캠 부트캠프8기] 데이터 분석을 위한 기초 수학/통계

eh0000 2023. 3. 3. 09:22

※ 본 내용은 [패스트캠퍼스 : 데이터 분석 부트캠프 8기 - 데이터 분석을 위한 기초 통계 완전 정복] 강의 내용을 기반으로 작성하였습니다. 내용 복사 및 인용하여 게시글 작성 시 출처 작성 부탁드립니다.

데이터 분석을 위한 기초 수학/통계

💡 궁극적인 목표
⇒ 확률과 통계의 개념을 빠르게 정리
⇒ 통계적 방법론을 활용하여 분석 기법을 활용

기본적인 용어와 개념을 이해
수식 자체보다는 수식에 담긴 직관적인 의미를 전달
수식은 엑셀 실습을 통해서 통계량을 산출
차트를 통한 시각화, 그리고 통계량에 대한 해석

PART1. 비전공자도 기본적인 통계 기초가 필요한 이유

OKR, KPI 등 지표를 통한 방법론
- 적절한 지표를 선정하는 방법과 기준
Growth Marketing(performance marketing)

⇒ 비즈니스의 근거가 되는 데이터 수치는 이미 다양한 도구를 통해서 수집, 가공, 시각화가 이루어지고 있다.

⇒ 데이터를 기반으로 수많은 의사결정을 수행하는 것은 더 이상 데이터 직군 종사자만의 일이 아니다.

⇒ 실무적 요구 능력

통계 수치를 해석
올바른 인과 관계 분석
인사이트 를 도출하는 일

PART2. 데이터 분석 단계 및 탐색적 데이터 분석(EDA)

데이터 분석 단계

데이터 분석 기획
- 비즈니스 이해 및 목표 설정
- 프로젝트 정의
데이터 수집 및 정제
- 분석에 필요한 데이터 수집 방법 확인
- 데이터 전처리, 검증 : 수집된 데이터의 정합성, 무결성 등을 검증
데이터 분석 모델링
- 탐색적 데이터 분석(EDA) : 통계량 확인 및 시각화를 통한 데이터의 특성을 파악
- 모델링 : 예측을 위한 수학적, 통계적 모델링
평가 및 결론 도출
- 모델링을 통해 생성된 결과를 활용하여 결론 도출
- 성능에 대한 평가
  - 도메인에 따라, 비즈니스적 요구에 따라 성능의 기준은 달라진다.
  - 상황에 따라 위의 과정을 수정해 가며 성능을 개선한다.
분석 결과의 활용
- 시스템 구현
  - 주기적으로 업데이트
- 비즈니스 인사이트
  - 의사 결정에 도움을 준다.
  - 시각화( 대시보드 등)
- 서비스에 활용
  - 모델을 활용하여 서비스에 적용된다.

탐색적 데이터 분석(EDA)

Exploratory Data Analysis, EDA
- 기초적인 통계개념으로 데이터 전체를 파악
- 데이터의 형질에 대한 도메인 개념 축적
- 전처리의 방향성 제시
데이터 전처리
- 데이터 분석에 앞서 전처리 과정을 통한 데이터 가공 및 변환
분포를 확인할 때 함께 확인해야하는 수치
- 분포의 중심 : 평균, 중위값, 최빈값 등
퍼짐 정도
- 분산, 표준편차, 사분위수, 변동계수
분포의 모양(비대칭성)
- 왜도(skewness), 첨도(kurtosis)

데이터 탐색과 통계 공부 필요성

통계 기법 2가지 예시

기술 통계 : 요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터를 탐색한다. (관측된 데이터의 특성을 파악하기 좋다.)
추론 통계 : 추출한 표본의 통계량 관찰 및 분석 기법을 활용하여 모집단을 추론한다.

⇒ 통계 공부는 수치로 부터 올바른 정보를 추출해 내기 위한 수단이다.

데이터 탐색 과정의 목적

어떤 변수가 결론에 많은 영향을 미치는지
- 유의미한 변수 탐색
- 변수 간의 독립성 확보
- 의미 없는 데이터 제거(효율성, 차원 축소)
변수의 분포에 따라 사용할 수 있는 통계적 방법론 선택

상관분석

t-test

모집단의 분산값을 모를때모를 때 사용한다.(주로 모집단의 분산값을 모를 때가 많아 주로 사용한다.)
두 집단의 평균을 비교, 평균의 차이에서 의미를 찾기 위해 사용한다.
p-value를 기준으로 대립가설(유의미한 차이가 있다), 귀무가설(차이가 없다) 을 구분한다.
p-value는 귀무가설이 참이라고 주장할 수 있는 값들이 실제로 관측될 확률이다.

회귀분석

둘 이상의 변수 사이에 어떠한 관계가 있는지 보여주는 통계 기법이다.
종속 변수(결과 변수)에 영향을 미치는 독립 변수(원인 변수)의 영향력을 판단 가능하다.
다만, 두 변수의 인과관계는 설명해주지는 못한다.

시계열 데이터 분석

(강의 외 참고했던 링크 => https://playinpap.github.io/easypeasy-time-series-01/ )

PART3. 무작정 따라하는 엑셀 데이터 탐색 실습

데이터 시각화

1. 기본 차트 작성(막대 / 꺾은선 / 원형)

2. 심화 차트 작성(콤보 / 거품 / 폭포형)

3. 조건부 서식의 활용

'데이터 분석' 카테고리의 다른 글

[패캠 부트캠프8기] Python - Numpy (0)	2023.03.23
[패캠 부트캠프8기] SQL, Python (0)	2023.03.13
[패캠 부트캠프8기] Business Analyst를 위한 핵심 SQL 실전 (0)	2023.03.10
[패캠 부트캠프8기] 엑셀 프로젝트 특강(2) (0)	2023.02.23
[패캠 부트캠프8기] 엑셀 프로젝트 특강(1) (0)	2023.02.22

'데이터 분석' Related Articles

Comments

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

시간과 공간

시간과 공간

[패캠 부트캠프8기] 데이터 분석을 위한 기초 수학/통계 본문

[패캠 부트캠프8기] 데이터 분석을 위한 기초 수학/통계

데이터 분석을 위한 기초 수학/통계

PART1. 비전공자도 기본적인 통계 기초가 필요한 이유

PART2. 데이터 분석 단계 및 탐색적 데이터 분석(EDA)

데이터 분석 단계

탐색적 데이터 분석(EDA)

데이터 탐색과 통계 공부 필요성

PART3. 무작정 따라하는 엑셀 데이터 탐색 실습

데이터 시각화

'데이터 분석' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역