TF-IDF (Term Frequency-Inverse Document Frequency)
TF-IDF는 텍스트 마이닝과 자연어 처리에서 문서 내 단어의 중요도를 평가하는 데 사용되는 통계적 방법입니다. 이 방법은 문서의 유일한 단어 빈도와 단어가 등장하는 문서의 수를 기반으로 작동합니다.
구성 요소
- TF (Term Frequency): 특정 단어가 문서 내에서 얼마나 자주 등장하는지를 나타내는 지표입니다.
- IDF (Inverse Document Frequency): 특정 단어가 문서 집합 전체에서 얼마나 고유한지를 나타내는 지표입니다.
수식
TF-IDF는 다음과 같이 계산됩니다:
- TF(t, d) = (단어 t가 문서 d에 나타나는 횟수) / (문서 d의 총 단어 수)
- IDF(t, D) = log((문서 집합 D의 총 문서 수) / (단어 t를 포함하는 문서 수))
- TF-IDF(t, d, D) = TF(t, d) × IDF(t, D)
예제 및 해설
문서 집합이 다음과 같다고 가정해 봅시다:
- 문서1: “the cat sat on the mat”
- 문서2: “the dog sat on the log”
이 문서 집합에서 각 단어의 TF-IDF 값을 계산합니다. 예를 들어, “cat”이라는 단어의 경우:
- 문서1에서 “cat”의 TF = 1/6 (문서1에서 “cat”은 한 번 등장하며, 문서의 총 단어 수는 6개입니다.)
- IDF = log(2/1) (문서 집합에는 총 2개의 문서가 있으며, “cat”은 하나의 문서에서만 등장합니다.)
- TF-IDF = (1/6) × log(2/1)
이러한 방식으로 문서 집합 내의 모든 단어에 대한 TF-IDF 값을 계산할 수 있습니다.
This post is licensed under CC BY 4.0 by the author.
Comments powered by Disqus.