상관계수, 코사인 유사도, 자카드 계수
상관계수, 코사인 유사도, 자카드 계수
1. 상관계수 (Correlation Coefficient)
상관계수는 두 변수 간의 선형 관계의 강도와 방향을 측정합니다.
수식
피어슨 상관계수의 수식은 다음과 같습니다: \(r = \frac{n(\sum xy) - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}\) 여기서 n
은 데이터 포인트의 수, x
와 y
는 각각 두 변수의 값입니다.
예제
예를 들어, 온도(°C)가 [15, 18, 21, 24, 27]이고 아이스크림 판매량(개)이 [100, 150, 200, 250, 300]일 때, 상관계수를 계산하면 어떤 관계가 있는지 알 수 있습니다.
2. 코사인 유사도 (Cosine Similarity)
코사인 유사도는 두 벡터의 코사인 각을 측정하여 유사성을 계산합니다.
수식
코사인 유사도의 수식은 다음과 같습니다: \(\text{cosine similarity} = \frac{A \cdot B}{||A|| ||B||} = \frac{\sum(A_i \times B_i)}{\sqrt{\sum A_i^2} \times \sqrt{\sum B_i^2}}\) 여기서 A
와 B
는 두 벡터이고, A_i
, B_i
는 각 벡터의 요소입니다.
예제
문서 A와 B가 각각 다음과 같은 단어 빈도 벡터를 가진다고 가정합니다: A = [1, 2, 3], B = [2, 3, 4]. 이 두 벡터에 대해 코사인 유사도를 계산합니다.
3. 자카드 계수 (Jaccard Index)
자카드 계수는 두 집합 간의 유사성과 다양성을 측정하는 데 사용됩니다.
수식
자카드 계수의 수식은 다음과 같습니다: \(J(A, B) = \frac{|A \cap B|}{|A \cup B|}\) 여기서 A
와 B
는 각각 비교되는 두 집합입니다.
예제
두 문서 A와 B가 각각 단어 집합 {apple, banana, orange}와 {banana, grape, orange}를 가지고 있다면, 이 두 집합에 대한 자카드 계수를 계산할 수 있습니다.
Comments powered by Disqus.