머신러닝 4

[Python] 머신러닝 (3)

결정트리(Decision Tree) : 데이터를 분류하거나 회귀 분석을 수행하는 머신러닝 알고리즘.노드(Node)와 가지(Branch)로 이루어진 트리 구조를 가지고, 특정 기준에 따라 데이터를 반복적으로 분할해서 예측을 수행한다.루트 노드(Root Node) : 처음 데이터를 나누는 시작점내부 노드(Internal Node) : 중간 의사결정을 담당하는 노드리프 노드(Leaf Node) : 최종적인 예측값을 제공하는 노드결정트리는 엔트로피와 지니 계수 같은 척도를 이용해서 데이터의 불순도를 측정하고, 가장 좋은 기준을 찾아서 데이터를 분할한다.알고리즘 작동 방식특성 선택 : 데이터를 가장 잘 나눌 수 있는 특성 선택분할 : 선택된 특성에 따라 데이터를 두 개 이상의 그룹으로 분할반복 : 리프 노드가 될..

Python 2025.03.10

[Python] 머신러닝 (2)

특성 공학과 규제특성 공학(Feature Engineering) : 머신러닝 모델의 성능을 향상시키기 위해 원본 데이터를 변형하거나 새로운 특성을 생성하는 과정.주요 기법다항 특성 생성 : 데이터의 비선형 관계를 포착하기 위해 입력 변수의 제곱, 세제곱 등의 다항식 변수를 추가하는 기법.표준화(Standardization)와 정규화(Normalization)표준화 : 평균이 0이고 분산이 1이 되도록 데이터를 변환해서 모델이 특정 변수에 치우치지 않게 한다.정규화 : 데이터의 스케일을 0 ~ 1 범위로 변환해서 학습을 안정적으로 만든다.불필요한 특성 제거 : 상관관계가 낮거나, 중요도가 낮은 특성을 제거해서 과적합을 방지하고, 학습 속도를 향상시킨다.차원 축소 : 고차원의 데이터를 저차원으로 변환하여 학..

Python 2025.03.08

[Python] 머신러닝 (1)

KNN(K-Nearest Neighbors Classfier) : 새로운 데이터 포인트의 클래스(label)를 예측할 때, 가장 가까운 K개의 이웃(데이터 포인트)의 클래스를 참고해서 결정하는 알고리즘.KNN의 특징거리 기반 알고리즘데이터가 많아질수록 연산 비용 증가(비효율적)학습 과정이 거의 없음(Lazy Leaning)데이터 분포가 명확하면 강력한 성능 발휘KNN의 동작 원리새로운 데이터 포인트가 주어지면 기존 데이터와의 거리를 계산가장 가까운 K개의 이웃을 선택이웃들의 클래스 중 가장 많이 등장하는 클래스를 새로운 데이터의 클래스로 예측장점이해하고 구현하기 쉽다학습 시간이 거의 없다적절한 K값 설정 시 높은 성능단점데이터가 많아지면 거리 계산 비용 증가K값 설정이 성능에 큰 영향을 미침차원의 저주(..

Python 2025.03.05