반응형
Notice
Recent Posts
Recent Comments
관리 메뉴

간단한 개발관련 내용

ML(machine learning)과 Numpy 그리고 Pandas 본문

AI & ML/ML (machine learning)

ML(machine learning)과 Numpy 그리고 Pandas

vincenzo.dev.82 2024. 12. 21. 00:17
반응형

머신러닝 (Machine Learning) 요약

머신러닝은 데이터를 기반으로 컴퓨터가 스스로 학습하고 패턴을 찾아내어 결과를 예측하거나 분류하는 기술입니다. 사람이 일일이 명령어를 작성하지 않아도 알고리즘이 데이터를 통해 학습합니다. 머신러닝은 크게 다음과 같은 유형이 있습니다:

  • 지도 학습: 입력 데이터와 정답(출력)을 제공하여 학습 (예: 이메일 스팸 분류).
  • 비지도 학습: 정답 없이 데이터의 구조나 패턴을 학습 (예: 고객군 세분화).
  • 강화 학습: 보상과 패널티를 통해 최적의 행동을 학습 (예: 게임 AI).

넘파이(Numpy)란?

넘파이수치 계산다차원 배열(NumPy array) 처리를 위한 파이썬 라이브러리입니다. 머신러닝에서 데이터를 수치적으로 다루기 위해 자주 사용됩니다.

주요 특징

  1. 다차원 배열 지원: 행렬 연산에 최적화되어 있습니다.
  2. 수학 및 통계 함수: 평균, 표준편차, 합, 곱 등 수치 계산이 쉽습니다.
  3. 빠른 연산 속도: 리스트보다 빠른 수치 연산이 가능합니다.

넘파이 예시

import numpy as np

# 배열 생성
arr = np.array([[1, 2, 3], [4, 5, 6]])

# 배열 연산
print("배열 합:", np.sum(arr))
print("열별 합계:", np.sum(arr, axis=0))
print("행렬 곱:", np.dot(arr, arr.T))  # 전치 행렬과 곱

 


판다스(Pandas)란?

판다스데이터 분석데이터 프레임 처리를 위한 라이브러리입니다. 판다스는 머신러닝에서 데이터를 전처리, 분석, 정리하는 데 사용됩니다.

주요 특징

  1. DataFrame: 엑셀과 유사한 형태의 데이터 구조를 제공합니다.
  2. 데이터 전처리: 결측치 처리, 중복 데이터 제거, 필터링이 가능합니다.
  3. 시계열 데이터 처리: 시간 기반 데이터 분석에 강력합니다.

판다스 예시

import pandas as pd

# 데이터프레임 생성
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)

# 데이터 확인
print(df)

# 필터링
high_salary = df[df['Salary'] > 55000]
print("고액 연봉자:\n", high_salary)

# 평균값 계산
print("평균 연봉:", df['Salary'].mean())

 

 


넘파이와 판다스의 차이점

기능 넘파이 (Numpy) 판다스 (Pandas)
목적 수치 연산 및 배열 연산 데이터 분석 및 데이터 처리
데이터 구조 다차원 배열 (ndarray) 데이터프레임, 시리즈
유연성 수치 연산에 최적화 다양한 데이터 타입 지원

결론

  • 머신러닝은 데이터를 학습해 패턴을 찾아내는 기술입니다.
  • 넘파이수치 연산다차원 배열 처리를 위해 사용됩니다.
  • 판다스는 데이터를 정리, 분석, 전처리하기 위해 활용됩니다.
    이 두 라이브러리는 머신러닝의 데이터 준비 과정에서 필수적인 역할을 합니다!

 

반응형