본문 바로가기

Programming/[Data Science]

[ML] 코사인 유사도

반응형

코사인 유사도 (Cosine Similarity)

  • 내적공간의 두 벡터간 코사인 값을 이용하여 측정된 벡터간의 유사한 정도를 의미합니다.

벡터의 내적 (Dot Product)

  • 두 벡터의 방향이 완전히 같을 경우 1, 90º의 각을 이룰 경우 0, 180º로 완전히 반대 방향인 경우 -1의 값을 갖습니다. 이 때 벡터의 크기는 값에 아무런 영향을 미치치 않습니다.

  • 코사인 유사도는 특히 결과값이 [0,1] 범위로 떨어지는 양수 공간에서 사용됩니다.
  • 정보 검색 텍스트 마이닝 분야에서 코사인 유사도는 두 문서의 유사를 측정하는 매우 유용한 방법입니다.
  • 코사인 유사도가 널리 사용되는 이유 중 하나는 이것이 양수 공간 조건만 만족하면 몇 차원이든지 거리를 측정하는 것이 가능하기 때문입니다.

벡터 A,B 값이 주어졌을 때 코사인 유사도 공식

 

텍스트 매칭에 적용될 경우, A,B의 벡터로는 일반적으로 해당 문서에서의 단어 빈도(TF-IDF)가 사용됩니다. 코사인 유사도는 문서들간의 유사도를 비교할 때 문서의 길이를 정규화하는 방법의 하나라고 볼 수 있습니다.

 

정보 검색의 경우, 문서의 단어 빈도(TF-IDF 가중치)가 음의 값이 되는 것이 불가능하므로 두 문서 사이의 코사인 유사도는 0에서 1까지의 값으로 표현됩니다.

 


[출처] : https://ko.wikipedia.org/wiki/%EC%BD%94%EC%82%AC%EC%9D%B8_%EC%9C%A0%EC%82%AC%EB%8F%84

 

코사인 유사도 - 위키백과, 우리 모두의 백과사전

코사인 유사도(― 類似度, 영어: cosine similarity)는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미한다. 각도가 0°일 때의 코사인값은 1이며, 다른 모든

ko.wikipedia.org

 

반응형