ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • SVM(Support Vector Machine)
    Statistics/개념 2019. 5. 14. 23:51
    반응형

    SVM 개념 정리

    분류를 위한 머신러닝 방법 중 하나

    각각 경계선은 두 분류되는 집단의 가장 가까운 점(Support Vector) 에 의해 결정된다.

    두 개의 집단을 분류 하는 경계선이 존재할 때에 이 경계선의 넓이 즉, margin을 길이를 최대화 하도록 분류하는 방법

    각각의 경계선과 관측치들간의 수직거리를 계산한다.

    w를 법선벡터라 할때 margin의 길이는 간단히 아래와 같이 나타나게 되며  마진값이 클 수록 더 경계선이 안정적이기 때문에 이 값을 최대화 시키는 알고리즘이다.

    최대화 시켜야하는 margin 값

    위의 값은 역순으로 뒤집으면 아래와 같은 값을 최소화 시키는 것과 같다. 

    최소화 시켜야하는 값

    이때 라그랑주 승수법이라는 방식을 이용하면 최소가 되는 법을 구할 수 있다.

    라그랑주 승수법을 이용한 수식

     

     

    하지만 실제 데이터가 정확하게 이분화 되는 것은 거의 존재하지 않는다.

    따라서 Soft Margin 방식이 존재한다.

    아래 수식과 같이 여유변수(slack variable)을 추가하여 약간의 오류를 허용함으로써 관찰값들을 분류한다.

    여유변수를 추가한 수식 

    이 때 C는 분류 오류가 생기는 데이터에 적절한 패널티를 부여하여 최적화된 수렴값을 가지도록 하기 위한 값이다.

    C가 크면 오버 피팅 될 가능성이 높고(틀리면 큰 벌점을 주니)

    C가 작으면 언더 피팅 될 가능성이 높다.(오류 허용 많이 해주니)

    이를 적용한 최종 라그랑주 승수법을 이용한 수식은 아래와 같다.

    여유변수를 추가한 라그랑주 승수법

     

    경계가 선형으로 나눠지지 않는 경우도 많은데 이때에는 커널 기법이라는 방식을 이용한다.

    SVM에서 커널 기법은 간단히 모든 조합을 계산하는 것이 아닌 특정한 방식으로 변수공간을 확장된 특성들만 계산하는

    방식이다.

    즉, 고차원으로 공간에서 분류를하여 비선형 형식으로 분류가 가능하게 하는것이며 고차원으로 갈수록

    개개의 특성의 중요도는 줄어든다. 예로는 가우시안 커널, 다항식 커널 과 같은 방식이 있다.

     

    SVM 장점 : 
    다양한 데이터 분포에서도 잘 작동하는 방식이다. 

    SVM 단점 :
    직관적인 해석이 힘들다. 

    수많은 계산량

     

     

    반응형

    댓글

Designed by Tistory.