Pandas란?
1. Pandas란?
Pandas
는 데이터 분석 및 조작을 위한 Python 라이브러리로, Numpy와 함께 데이터 분석에 있어서 가장 기본이 되는 라이브러리입니다. Numpy를 기반으로 개발되어 다양한 형태의 데이터를 효과적으로 처리할 수 있는 여러 가지 기능을 제공합니다. 특히 대규모 데이터 세트를 처리하고, 표 형태의 구조화된 데이터를 다루기에 용이합니다.
Pandas는 크게 Series와 DataFrame 두 가지 주요 데이터 구조를 제공합니다.
Series
는 인덱스를 가진 1차원 배열과 유사한 구조로, 주로DataFrame
의 열을 나타냅니다.DataFrame
은 2차원 테이블(배열) 형태의 데이터 구조로 행과 열을 가집니다. 또한 Panel이라는 3차원 데이터 구조도 제공됩니다.
2. Pandas 주요 기능
- 데이터 입출력: 다양한 파일 형식(CSV, Excel, SQL 데이터베이스, JSON 등)으로부터 데이터를 읽어오거나 저장할 수 있는 기능을 제공합니다.
- 데이터 선택 및 필터링:
loc
,iloc
, 조건부 선택 등을 사용하여 데이터의 특정 부분을 선택하고 필터링할 수 있습니다. - 데이터 인덱싱 및 슬라이싱: 데이터를 인덱싱하거나 슬라이싱하여 필요한 부분만 추출할 수 있습니다.
- 데이터 조작 및 변환: 결측값 처리, 데이터 정렬, 데이터 형 변환, 문자열 데이터 조작 등 데이터 형식을 변환하거나, 데이터를 추가, 수정, 삭제하는 기능을 제공합니다.
- 데이터 결합 및 병합:
concat
,merge
,join
함수를 사용하여 데이터프레임을 결합하고 병합할 수 있습니다. - 데이터 그룹화 및 집계:
groupby
기능을 통해 데이터를 그룹화하고, 집계 함수를 적용하여 데이터를 요약할 수 있습니다. - 시계열 데이터 처리: 시간 인덱스 생성 및 조작, 시계열 데이터 분석, 리샘플링 등에 특화된 기능을 제공합니다.
- 데이터 시각화: Matplotlib 라이브러리와 통합되어 데이터를 시각화 할 수 있는 기능을 제공합니다.
Pandas는 다른 Python 라이브러리와도 잘 호환되며, 데이터 분석 작업을 더 쉽고 효율적으로 수행할 수 있도록 설계되어 데이터 분석 분야에서 널리 사용되고 있습니다. Pandas는 다른 데이터 분석 라이브러리인 NumPy, Matplotlib, Scikit-learn 등과 함께 사용되어 데이터 분석 및 머신 러닝에 유용합니다.
3. Pandas 설치와 버전 확인
Pandas는 Numpy와 마찬가지로 pip를 사용하여 설치할 수 있습니다. 다음은 Pandas를 설치하는 방법입니다. 위니북스와 코랩에는 설치가 되어 있습니다.
3.1 Windows
- 먼저, Python을 설치합니다. Python 3.x 버전을 사용하시는 것을 권장합니다.
- 명령 프롬프트(cmd)를 열고, 다음 명령어를 입력합니다.
$ pip install pandas
$ pip install pandas
- 설치가 완료되면, 다음과 같이 Pandas 버전을 확인할 수 있습니다. 정상적으로 설치되었다면 Pandas의 버전이 출력되고, 설치되지 않았다면 ImportError가 발생합니다.
$ python -c "import pandas as pd; print(pd.__version__)"
$ python -c "import pandas as pd; print(pd.__version__)"
3.2 MacOS
-
먼저, Homebrew를 설치합니다. 다음 명령어를 터미널에서 실행합니다.
$ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
$ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
-
다음으로, Python을 설치합니다.
$ brew install python
$ brew install python
-
이제, 다음 명령어를 터미널에서 실행하여 Pandas를 설치합니다.
$ pip install pandas
$ pip install pandas
-
설치가 완료되면, 다음과 같이 Pandas 버전을 확인할 수 있습니다. 정상적으로 설치되었다면 Pandas의 버전이 출력되고, 설치되지 않았다면 ImportError가 발생합니다.
$ python -c "import pandas as pd; print(pd.__version__)"
$ python -c "import pandas as pd; print(pd.__version__)"
3.3 Linux
-
먼저, Linux 배포판의 패키지 관리자를 이용하여 Python을 설치합니다.
- Debian/Ubuntu:
$ sudo apt-get update $ sudo apt-get install python3
$ sudo apt-get update $ sudo apt-get install python3
- Fedora:
$ sudo dnf update $ sudo dnf install python3
$ sudo dnf update $ sudo dnf install python3
- CentOS/RHEL:
$ sudo yum update $ sudo yum install python3
$ sudo yum update $ sudo yum install python3
- Debian/Ubuntu:
-
다음 명령어를 실행하여 Pandas를 설치합니다.
$ pip install pandas
$ pip install pandas
-
설치가 완료되면, 다음과 같이 Pandas 버전을 확인할 수 있습니다. 정상적으로 설치되었다면 Pandas의 버전이 출력되고, 설치되지 않았다면 ImportError가 발생합니다.
$ python -c "import pandas as pd; print(pd.__version__)"
$ python -c "import pandas as pd; print(pd.__version__)"
위의 방법들은 각 운영체제에 기본적으로 설치된 Python 버전을 이용하여 Pandas를 설치합니다. Python 버전이 충돌이나 다른 문제로 인해 원하는 결과를 얻을 수 없을 경우, 가상환경(virtual environment)을 이용하여 Python 및 Pandas를 설치하는 것을 권장합니다.
3.4 가상환경에 설치하기
-
가상환경을 생성합니다.
$ python3 -m venv myenv
$ python3 -m venv myenv
-
가상환경을 활성화 시킵니다.
# Windows의 경우 $ myenv\\Scripts\\activate # Mac/Linux의 경우 $ source myenv/bin/activate
# Windows의 경우 $ myenv\\Scripts\\activate # Mac/Linux의 경우 $ source myenv/bin/activate
-
다음 명령어를 실행하여 Pandas를 설치합니다.
$ pip install pandas
$ pip install pandas
설치가 완료되면, 다음과 같이 Pandas 버전을 확인할 수 있습니다. 정상적으로 설치되었다면 Pandas의 버전이 출력되고, 설치되지 않았다면 ImportError가 발생합니다.
$ python -c "import pandas as pd; print(pd.__version__)"
$ python -c "import pandas as pd; print(pd.__version__)"
-
가상환경을 비활성화 합니다.
$ deactivate
$ deactivate
3.5 Google Colab, 위니북스
위니북스와 코랩에는 설치가 되어 있습니다.
-
다음 명령어를 실행하여 Pandas를 설치합니다.
$ !pip install pandas
$ !pip install pandas
-
설치가 완료되면, 다음과 같이 Pandas 버전을 확인할 수 있습니다. 정상적으로 설치되었다면 Pandas의 버전이 출력되고, 설치되지 않았다면 ImportError가 발생합니다.
import pandas as pd print(pd.__version__) # 판다스 설치 확인
4. Pandas를 사용하여 데이터 읽기
Pandas 라이브러리를 활용하여 웹에 있는 다양한 형태의 데이터를 읽어들이고 분석을 진행하겠습니다. Pandas는 다양한 데이터 포맷을 지원하며, read_csv()
, read_excel()
, read_sql()
, read_json()
등의 함수를 제공합니다. 이번에는 read_csv()
함수, read_html()
함수를 사용하여 데이터를 읽어들이는 방법을 살펴보겠습니다.
google colab에서는 open_url()
사용 없이 pd.read_csv()
함수를 사용하여 데이터를 읽어들일 수 있습니다.