파이썬 머신러닝 완벽가이드 3

붓꽃 품종 예측하기(iris dataset) + 사이킷런 소개

사이킷런? 지도학습 fit() : ML 모델 학습 predict() : 학습된 모델의 예측 위의 두 함수를 활용, 다양한 분류(Classifier), 회귀(Regressor) 문제 해결 가능 Estimator 클래스 : Classifier() + Regressor() 비지도학습 차원 축소, 클러스터링, 피처 추출 fit() : 지도학습과 다르게 데이터의 구조 변환 transform() : 실제 작업 fit_transform() : fit() + transform() (하지만 사용에 주의가 필요하다.) 사이킷런 주요 모듈 분류 모듈명 예제 데이터 sklearn.datasets 피처 처리 sklearn.preprocessing sklearn.feature_selection sklearn.feature_ext..

판다스 (Pandas)

판다스 행, 열로 이루어진 2차원 데이터의 효율적인 핸들링 가능 넘파이 기반, 하지만 넘파이보다 유연하고 편리 DataFrame : 판다스의 핵심 개체 여러 개의 series로 구성 (series 하나는 특성 하나로 구성, 즉, 하나의 열) Index : DataFrame의 특성 식별용 key값 import pandas as pd 다양한 포맷 파일을 DataFrame 형태로 로드 가능 (read_csv(), read_table(), read_fwf() 등등...) 예시 : ',' 으로 구분된 파일 로드 --> read_csv('파일명', sep=',') factories = pd.read_csv('1/6장/tbl_factory.csv', index_col = 0) factories #FCname, FCD..

넘파이 (ndarray)

머신러닝의 주요 알고리즘 --> 선형대수 & 통계 등에 기반 NumPy (numerical python) : 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 패키지 방대한 계산 능력, 빠른 계산 C/C++ 저수준 언어 기반의 호환 API 제공 데이터 핸들링 기능 제공 다차원 배열 생성 및 연산 수행 가능 import numpy as np array1 = np.array([1,2,3]) #1차원 3개 데이터 array2 = np.array([[1,2,3],[2,3,4]]) #2차원, 2*3=6개 데이터 array3 = np.array([[1,2,3]]) #2차원, 3개 데이터 ndarray의 데이터 타입 숫자, 문자열, bool값 등 모두 가능 숫자형 - int형 (8bit, 16bit, 32bi..