TF-IDF (Term Frequency-Inverse Document Frequency)

Posted Nov 23, 2023

By 2 min read

TF-IDF는 텍스트 마이닝과 자연어 처리에서 문서 내 단어의 중요도를 평가하는 데 사용되는 통계적 방법입니다. 이 방법은 문서의 유일한 단어 빈도와 단어가 등장하는 문서의 수를 기반으로 작동합니다.

구성 요소

TF (Term Frequency): 특정 단어가 문서 내에서 얼마나 자주 등장하는지를 나타내는 지표입니다.
IDF (Inverse Document Frequency): 특정 단어가 문서 집합 전체에서 얼마나 고유한지를 나타내는 지표입니다.

수식

TF-IDF는 다음과 같이 계산됩니다:

TF(t, d) = (단어 t가 문서 d에 나타나는 횟수) / (문서 d의 총 단어 수)
IDF(t, D) = log((문서 집합 D의 총 문서 수) / (단어 t를 포함하는 문서 수))
TF-IDF(t, d, D) = TF(t, d) × IDF(t, D)

예제 및 해설

문서 집합이 다음과 같다고 가정해 봅시다:

문서1: “the cat sat on the mat”
문서2: “the dog sat on the log”

이 문서 집합에서 각 단어의 TF-IDF 값을 계산합니다. 예를 들어, “cat”이라는 단어의 경우:

문서1에서 “cat”의 TF = 1/6 (문서1에서 “cat”은 한 번 등장하며, 문서의 총 단어 수는 6개입니다.)
IDF = log(2/1) (문서 집합에는 총 2개의 문서가 있으며, “cat”은 하나의 문서에서만 등장합니다.)
TF-IDF = (1/6) × log(2/1)

이러한 방식으로 문서 집합 내의 모든 단어에 대한 TF-IDF 값을 계산할 수 있습니다.

Artificial Intelligence

AI

This post is licensed under CC BY 4.0 by the author.

Comments powered by Disqus.

Trending Tags

AI algorithms tip ai Kafka life motivation Software Architecture blog dev