728x90
반응형
코사인 유사도 (Cosine Similarity)
- 내적공간의 두 벡터간 코사인 값을 이용하여 측정된 벡터간의 유사한 정도를 의미합니다.
- 두 벡터의 방향이 완전히 같을 경우 1, 90º의 각을 이룰 경우 0, 180º로 완전히 반대 방향인 경우 -1의 값을 갖습니다. 이 때 벡터의 크기는 값에 아무런 영향을 미치치 않습니다.
- 코사인 유사도는 특히 결과값이 [0,1] 범위로 떨어지는 양수 공간에서 사용됩니다.
- 정보 검색 및 텍스트 마이닝 분야에서 코사인 유사도는 두 문서의 유사를 측정하는 매우 유용한 방법입니다.
- 코사인 유사도가 널리 사용되는 이유 중 하나는 이것이 양수 공간 조건만 만족하면 몇 차원이든지 거리를 측정하는 것이 가능하기 때문입니다.
텍스트 매칭에 적용될 경우, A,B의 벡터로는 일반적으로 해당 문서에서의 단어 빈도(TF-IDF)가 사용됩니다. 코사인 유사도는 문서들간의 유사도를 비교할 때 문서의 길이를 정규화하는 방법의 하나라고 볼 수 있습니다.
정보 검색의 경우, 문서의 단어 빈도(TF-IDF 가중치)가 음의 값이 되는 것이 불가능하므로 두 문서 사이의 코사인 유사도는 0에서 1까지의 값으로 표현됩니다.
[출처] : https://ko.wikipedia.org/wiki/%EC%BD%94%EC%82%AC%EC%9D%B8_%EC%9C%A0%EC%82%AC%EB%8F%84
반응형
'IT > [Data Science]' 카테고리의 다른 글
[ML] 과적합(Overfitting)을 막는 방법들 (0) | 2022.02.23 |
---|---|
[ML] pytorch로 다층 퍼셉트론 구현하여 손글씨 분류 (0) | 2022.02.22 |
[ML] 인공신경망 비선형 활성화함수 (Activation Function) (0) | 2022.02.22 |
[ML] 다층 퍼셉트론 구현으로 XOR 문제 해결하기 (0) | 2022.02.22 |
[ML] 단층 퍼셉트론으로 XOR 문제 구현하기 (0) | 2022.02.18 |