데이터 분석 개론
1. 데이터란 무엇인가?
1.1 데이터의 정의
데이터는 우리가 관찰하거나 측정한 사실이나 정보를 의미합니다. 예를 들어, 날씨 데이터를 보면 온도, 습도, 강수량 같은 숫자로 표현된 정보가 있습니다. 데이터는 다양한 형태로 존재할 수 있으며, 이러한 데이터를 활용하여 문제를 해결하거나 현상을 이해할 수 있습니다.
1.2 데이터 분석의 필요성
데이터 분석이란, 수집된 데이터를 통해 의미 있는 정보를 찾아내는 과정입니다. 이 과정에서 우리는 복잡한 문제를 간단히 나누어 생각하고, 가장 효율적인 해결책을 찾습니다.
데이터 분석을 통해 우리는 더 나은 결정(의사 결정)을 내릴 수 있고, 이를 바탕으로 일상생활이나 비즈니스에서 큰 변화를 이끌어낼 수 있습니다.
2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 다양한 형태의 유권자 데이터베이스를 확보하여 이를 분석, 활용한 '유권자 맞춤형 선거 전략'을 전개했다. 당시 오바마 캠프는 인종, 종교, 나이, 가구형태, 소비수준과 같은 기본 인적 사항으로 유권자를 분류하는 것을 넘어서서 과거 투표 여부, 구독하는 잡지, 마시는 음료 등 유권자 성향까지 전화나 개별 방문을 또는 소셜 미디어를 통해 유권자 정보를 수집하였다. 수집된 데이터는 오바마 캠프 본부로 전송되어 유권자 데이터베이스를 온라인으로 통합관리하는 ‘보트빌더(VoteBuilder.com)’시스템의 도움으로 유권자 성향 분석, 미결정 유권자 선별, 유권자에 대한 예측을 해나갔다. 이를 바탕으로‘유권자 지도’를 작성한 뒤 ‘유권자 맞춤형 선거 전략’을 전개하는 등 오바마 캠프는 비용 대비 효과적인 선거를 치를 수 있었다.
From Wikipedia
이러한 전략을 통해 288만 명의 추가 메일주소와 6000만 달러의 추가 후원금 확보했습니다.
2. 데이터의 특징과 종류
2.1 3V와 5V
데이터는 다양한 특징을 가집니다. 이를 3V라고 얘기합니다.
- Volume (양): 데이터의 양이 방대하다.
- Velocity (속도): 데이터를 빠르게 수집하고 처리해야 한다.
- Variety (다양성): 데이터는 숫자뿐만 아니라 텍스트, 이미지, 영상 등 다양한 형태로 존재한다.
이에 2개를 더 추가하여 5V로 표현하기도 합니다.
- Veracity (정확성): 데이터의 정확성이 중요하다.
- Value (가치): 데이터를 통해 가치 있는 정보를 찾아야 한다.
또한 데이터는 정형 데이터(숫자처럼 정해진 형식으로 된 데이터), 비정형 데이터(텍스트나 이미지처럼 형식이 없는 데이터)로 나눌 수 있습니다.
3. 데이터를 다루는 기본 도구
3.1 파이썬과 데이터 분석
데이터 분석을 위해 많이 사용하는 프로그래밍 언어는 파이썬입니다. 파이썬은 쉽고 직관적이어서 초보자도 배우기 쉽습니다. 데이터 분석에서는 데이터를 다루기 위해 다양한 라이브러리(예: Pandas, Numpy)를 활용하여 데이터를 정리하고 분석할 수 있습니다.
또한 파이썬은 데이터분석에 거의 모든 생애주기에서 사용할 수 있는 언어입니다. 데이터 수집, 전처리, 분석, 시각화 등 모든 단계에서 파이썬을 사용할 수 있습니다. 확장성도 뛰어납니다. 그렇기에 데이터 분석가들은 파이썬을 많이 사용합니다.
라이브러리란 무엇인가요?
라이브러리는 다른 사람들이 만들어 놓은 코드를 재사용할 수 있도록 모아놓은 것입니다. 파이썬에서는 다양한 라이브러리를 사용할 수 있습니다. 이러한 라이브러리를 사용하면 데이터 분석을 더 쉽게 할 수 있습니다. 예를 들어, 아래와 같은 공구상자에 비유할 수 있습니다. 공구를 직접 만들 필요가 없는 것이죠.
3.2 데이터 분석을 위한 다른 도구
데이터 분석을 위해 사용되는 다른 도구로는 R, SQL, 엑셀 등이 있습니다. R은 통계 분석에 특화된 언어로, 통계학자들이 많이 사용합니다. SQL은 데이터베이스를 다루는 데 사용되는 언어로, 데이터베이스 관리자들이 주로 사용합니다. 엑셀은 데이터를 시각화하거나 간단한 분석을 할 때 사용됩니다.
데이터 분석은 특정 도구를 사용하는 방법이 아닌 의사 결정을 위한 데이터를 분석하고 인사이트를 발굴하는 과정이기 때문에 다양한 도구를 사용할 수 있습니다.
4. 데이터 분석의 단계
데이터 분석은 여러 단계를 통해 이루어집니다. 데이터 분석 프로세스에는 여러 프로세스가 있습니다. 여기서는 데이터 분석 실무에서 주로 사용되는 분석 절차를 소개합니다.
- 데이터 선택: 분석할 데이터를 선택합니다.
- 데이터 전처리: 데이터의 잡음이나 이상점을 제거하고, 데이터를 정리합니다.
- 데이터 변환: 데이터를 분석하기 쉽도록 변환합니다. 새로운 변수를 만들거나 차원을 축소하는 등의 작업을 수행합니다.
- 데이터 마이닝: 데이터에서 패턴이나 규칙을 찾습니다. 이를 통해 데이터의 의미를 파악하고 인사이트를 도출합니다.
- 결과 평가: 분석 결과를 평가하고 결론을 도출합니다.
요약된 이미지는 아래와 같습니다.
5. 데이터 시각화
데이터를 분석한 후, 이를 시각적으로 표현하는 것이 중요합니다. 그래프나 차트를 이용해 데이터를 시각화하면 더 쉽게 이해할 수 있습니다.
6. 탐색적 데이터 분석(EDA)
탐색적 데이터 분석(EDA)은 데이터를 처음 접할 때 사용하는 방법입니다. 주로 데이터의 기본적인 특성을 파악하고, 숨겨진 패턴이나 이상점을 찾는 데 중점을 둡니다. 예를 들어, 아래와 같은 이미지에서 빨간색 박스 안에 데이터는 누가 보더라도 이상점으로 판단할 수 있습니다.
데이터를 시각화할 때는 파이썬의 Matplotlib이나 Seaborn 같은 라이브러리를 사용할 수 있습니다. 이 도구들은 데이터를 차트나 그래프로 쉽게 표현해줍니다.
7. 통계학 기초
7.1 평균, 중앙값, 최댓값
통계학은 데이터를 분석하는 데 중요한 도구입니다. 가장 기본적인 통계 개념으로는 평균(모든 값을 더한 후 개수로 나눈 값), 중앙값(가운데 있는 값), 최댓값(가장 큰 값) 등이 있습니다. 이러한 개념을 이용해 데이터를 요약하고 중요한 정보를 얻을 수 있습니다.
아래 개념을 한 번 정리해보세요.
- 평균, 중앙값, 최댓값은 무엇인가요?
- 분산, 표준편차는 무엇인가요?
- 정규화, 표준화, 정규분포, 표준정규분포는 무엇인가요?
이러한 개념을 정리하는 것은 데이터 분석을 하는 데 중요합니다. 구글에 'datasaurus dozen'을 검색해보세요. 데이터 분석에서 통계학을 배우고, 시각화를 하는 것이 얼마나 중요한지 알 수 있습니다. 아래 이미지는 'datasaurus dozen'의 일부입니다. 평균이 모두 같습니다. 하지만 데이터의 분포는 다릅니다.
더 알아보기