본문 바로가기

분류 전체보기14

LDA, 선형판별분석 LDA란?LDA는 Linear Discriminant Analysis의 약어로 PCA와 같이 차원 축소의 방법 중 하나이다. 다만 비지도 학습 방식은 PCA와는 다르게 LDA는 지도 학습 방식의 차원 축소 기법으로, 데이터셋의 클래스 레이블을 이용하여 클래스 간의 정보를 최대화하는 방향으로 작동한다. PCA는 축 위에서의 데이터의 분산을 최대화한다는 점에서 차이가 있다. PCA는 전반적인 데이터의 구조나 패턴을 파악하는데 용이하다면, LDA는 클래스 레이블을 분류하는 문제에서 용이하다.  LDA의 원리 클래스 내의 분산은 최소화하고, 클래스 간의 분산은 최대화하는 방향으로 차원을 축소한다, 이는 클래스 간의 분리가 최대화될 수 있도록 한다. 두 조건을 만족하는 방향 벡터는 고유값 분해를 통해서 구하고 고.. 2025. 1. 23.
PCA, 주성분 분석 PCA란?Principal Component Analysis의 약자로 데이터셋의 차원을 축소하여 분산(정보)을 최대한으로 보존하면서 상관관계가 있는 변수를 독립적인 주성분으로 변환하는 과정이다. 고차원의 데이터를 저차원으로 바꾸면서 4차원이나 5차원 혹은 그 이상의 차원에 해당하는 데이터셋을 시각화할 수 있다. 이를 통해 중요한 패턴을 찾을 수 있고, 노이즈를 제거할 수 있다. PCA의 원리PCA는 데이터의 분산을 최대화하는 방향으로 축(선)을 찾고, 데이터들을 축 위에 투영하여 분산을 반영한다. 2차원의 경우 데이터가 가장 넓게 퍼져있는 방향이고, 3차원 이상의 경우 이전 주성분에 대하여 직교하는 방향 중 가장 큰 분산을 다음의 주성분이 설명한다. 수학적으로 PCA는 공분산 행렬과 고유값을 이용하여 적.. 2025. 1. 22.
[SNS] sns.scatterplot(), 산점도 import matplotlib.pyplot as pltimport seaborn as snssns.scatterplot(x = data['feature1'], y= data['feature2'])plt.title("Scatterplot")plt.show()산점도를 생성하여 데이터셋에서 두 변수 간의 관계를 점으로 표시한다. 회귀분석에서 사용한다면 데이터들의 관계를 파악하는데 용이하게 사용할 수 있다. 2024. 12. 28.
[EDA] Isolation Forest Isolation Forest는 이상치를 탐지하는 비지도 학습 알고리즘으로, 트리 구조를 기반으로 이상치 탐지에서 뛰어난 효과를 보인다. 작동 원리이상치들은 전체 데이터에서 소수이며, 일반적인 데이터 포인트와는 다른 값을 가진다는 점을 기반으로 데이터들을 분리(Isolation)하며 작동한다. 1. 랜덤 분할 임의의 피쳐와 임의의 분할값을 선택하여 분할한다. 키와 몸무게라는 피쳐들이 있으면 랜덤으로 키를 고르고, 키 데이터 범위 중 임의의 값인 170cm를 골라 데이터들을 분할한다. 이 과정을 여러 번 반복한다.2. 깊이 계산 분리되기까지의 경로 깊이를 측정한다. 이상치는 다른 데이터들로부터 떨어져 있기 때문에 분리 깊이가 짧은 데이터를 이상치로 간주한다.3. 이상치 점수 계산 데이터 포인트의 이상치 점.. 2024. 12. 25.
[EDA] DBSCAN 기법 DBSCAN은 Density-Based Spatial Clustering of Applications with Noise은 준말로 데이터 포인트들을 밀도를 기반으로 군집화하여 노이즈 데이터를 탐지하는 이상치 탐지 기법이다. 데이터들이 많은 구역을 클러스터로 식별하고 밀도가 낮은 데이터들은 노이즈로 간주한다. 원리1. 초기화 모든 데이터를 방문하지 않은 상태로 시작하여 각 데이터 포인트의 반지름 r 이내에 있는 다른 데이터 포인트의 수를 확인한다. 2. 클러스터 조건 확인 이 데이터 포인트를 중심으로 주변 이웃의 수가 최소 데이터 개수보다 큰 지를 확인하여 클러스터 핵심 포인트와 경계 포인트, 이상치를 구분한다. 핵심 포인트는 주변 이웃의 수가 최소 데이터 개수보다 큰 데이터 포인트이며, 이들을 기준으로 .. 2024. 12. 24.
[EDA] Z-score Z-score 기법은 데이터 포인트가 평균으로부터 얼마나 떨어졌는지를 표준편차 단위로 나타내는 방식으로 단변량 이상치 탐지에 사용된다.Z-score의 계산 공식은 다음과 같다.\[ Z = \frac{X - \mu}{\sigma} \] X는 데이터 포인트의 값이고, μ는 데이터의 평균값이다. σ는 데이터의 표준편차값이다. 즉, Z-score는 데이터 포인트가 평균으로부터 얼만큼의 표준편차 만큼 떨어져있는가를 나타내는 값으로 볼 수 있다.  Z-score의 장단점 표준편차를 이용하기 때문에 데이터의 크기나 단위에 영향을 받지 않아 별도의 스케일링을 할 필요가 없다. 하지만 정규분포에서 가장 뛰어난 효과를 보이기 때문에 정규 분포로 만들어주는 것이 좋다. 또한 이상치가 많이 포함된 경우에는 평균이 왜곡되어 탐.. 2024. 12. 24.