시간과 공간

[패캠 부트캠프8기] 데이터 분석을 위한 기초 수학/통계 본문

데이터 분석

[패캠 부트캠프8기] 데이터 분석을 위한 기초 수학/통계

eh0000 2023. 3. 3. 09:22
※ 본 내용은 [패스트캠퍼스 : 데이터 분석 부트캠프 8기 - 데이터 분석을 위한 기초 통계 완전 정복] 강의 내용을 기반으로 작성하였습니다. 내용 복사 및 인용하여 게시글 작성 시 출처 작성 부탁드립니다.

데이터 분석을 위한 기초 수학/통계

💡 궁극적인 목표
⇒ 확률과 통계의 개념을 빠르게 정리
⇒ 통계적 방법론을 활용하여 분석 기법을 활용

 

  • 기본적인 용어와 개념을 이해
  • 수식 자체보다는 수식에 담긴 직관적인 의미를 전달
  • 수식은 엑셀 실습을 통해서 통계량을 산출
  • 차트를 통한 시각화, 그리고 통계량에 대한 해석

PART1. 비전공자도 기본적인 통계 기초가 필요한 이유

  • OKR, KPI 등 지표를 통한 방법론
    • 적절한 지표를 선정하는 방법과 기준
  • Growth Marketing(performance marketing)

⇒ 비즈니스의 근거가 되는 데이터 수치는 이미 다양한 도구를 통해서 수집, 가공, 시각화가 이루어지고 있다.

⇒ 데이터를 기반으로 수많은 의사결정을 수행하는 것은 더 이상 데이터 직군 종사자만의 일이 아니다.

⇒ 실무적 요구 능력

  • 통계 수치를 해석
  • 올바른 인과 관계 분석
  • 인사이트 를 도출하는 일

PART2. 데이터 분석 단계 및 탐색적 데이터 분석(EDA)

데이터 분석 단계

  1. 데이터 분석 기획
    • 비즈니스 이해 및 목표 설정
    • 프로젝트 정의
  2. 데이터 수집 및 정제
    • 분석에 필요한 데이터 수집 방법 확인
    • 데이터 전처리, 검증 : 수집된 데이터의 정합성, 무결성 등을 검증
  3. 데이터 분석 모델링
    • 탐색적 데이터 분석(EDA) : 통계량 확인 및 시각화를 통한 데이터의 특성을 파악
    • 모델링 : 예측을 위한 수학적, 통계적 모델링
  4. 평가 및 결론 도출
    • 모델링을 통해 생성된 결과를 활용하여 결론 도출
    • 성능에 대한 평가
      • 도메인에 따라, 비즈니스적 요구에 따라 성능의 기준은 달라진다.
      • 상황에 따라 위의 과정을 수정해 가며 성능을 개선한다.
  5. 분석 결과의 활용
    • 시스템 구현
      • 주기적으로 업데이트
    • 비즈니스 인사이트
      • 의사 결정에 도움을 준다.
      • 시각화( 대시보드 등)
    • 서비스에 활용
      • 모델을 활용하여 서비스에 적용된다.

탐색적 데이터 분석(EDA)

  • Exploratory Data Analysis, EDA
    • 기초적인 통계개념으로 데이터 전체를 파악
    • 데이터의 형질에 대한 도메인 개념 축적
    • 전처리의 방향성 제시
  • 데이터 전처리
    • 데이터 분석에 앞서 전처리 과정을 통한 데이터 가공 및 변환
  • 분포를 확인할 때 함께 확인해야하는 수치
    • 분포의 중심 : 평균, 중위값, 최빈값 등
  • 퍼짐 정도
    • 분산, 표준편차, 사분위수, 변동계수
  • 분포의 모양(비대칭성)
    • 왜도(skewness), 첨도(kurtosis)

데이터 탐색과 통계 공부 필요성

통계 기법 2가지 예시

  • 기술 통계 : 요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터를 탐색한다. (관측된 데이터의 특성을 파악하기 좋다.)
  • 추론 통계 : 추출한 표본의 통계량 관찰 및 분석 기법을 활용하여 모집단을 추론한다.

⇒ 통계 공부는 수치로 부터 올바른 정보를 추출해 내기 위한 수단이다.

 

데이터 탐색 과정의 목적

  1. 어떤 변수가 결론에 많은 영향을 미치는지
    • 유의미한 변수 탐색
    • 변수 간의 독립성 확보
    • 의미 없는 데이터 제거(효율성, 차원 축소)
  2. 변수의 분포에 따라 사용할 수 있는 통계적 방법론 선택

상관분석

 

t-test

  • 모집단의 분산값을 모를때모를 때 사용한다.(주로 모집단의 분산값을 모를 때가 많아 주로 사용한다.)
  • 두 집단의 평균을 비교, 평균의 차이에서 의미를 찾기 위해 사용한다.
  • p-value를 기준으로 대립가설(유의미한 차이가 있다), 귀무가설(차이가 없다) 을 구분한다.
  • p-value는 귀무가설이 참이라고 주장할 수 있는 값들이 실제로 관측될 확률이다.

회귀분석

  • 둘 이상의 변수 사이에 어떠한 관계가 있는지 보여주는 통계 기법이다.
  • 종속 변수(결과 변수)에 영향을 미치는 독립 변수(원인 변수)의 영향력을 판단 가능하다.
  • 다만, 두 변수의 인과관계는 설명해주지는 못한다.

시계열 데이터 분석

(강의 외 참고했던 링크 => https://playinpap.github.io/easypeasy-time-series-01/ )


PART3. 무작정 따라하는 엑셀 데이터 탐색 실습

데이터 시각화

1. 기본 차트 작성(막대 / 꺾은선 / 원형)

2. 심화 차트 작성(콤보 / 거품 / 폭포형)

3. 조건부 서식의 활용

Comments