YYYEJI

문서 임베딩(Document Embedding)이란? 본문

AI

문서 임베딩(Document Embedding)이란?

YEJI ⍢ 2025. 8. 5. 12:23
728x90

문서 임베딩이란 

텍스트를 벡터(숫자 배열)로 변환하는 과정입니다!!

문서의 의미적 특성을 수치화하여, 

컴퓨터가 이해하고 처리할 수 있는 형태로 변환합니다!!

 

 

문서 임베딩의 목적은?

텍스트 간 유사도 계산을 가능하게 하고,

벡터 데이터베이스에 저장하고 검색을 가능하게 하고,

의미 기반 문서 검색을 구현할 수 있게 합니다!

 

 

LangChain에서 사용 가능한 임베딩 모델은

OpenAI Embedding, HuggingFace Embedding입니다.

 


OpenAI Embedding

LangChain에서 가장 널리 사용되는 임베딩 모델 중 하나이며,

고품질의 임베딩 생성, 다양한 언어 지원, 일관된 성능, 손쉬운 통합이 장점입니다!

 

 

사용시 주의할 점은

1. API 키 설정이 필요

2. API 사용량에 따른 비용 발생

3. 긴 텍스트는 자동으로 분활되지 않으므로 필요시 TextSplitter 사용

입니다!

 

 

모델별 특징을 살펴보면

small 모델은 1536차원,

large 모델은 3072 차원,

dimensions 파라미터로 차원 축소가 가능합니다.


 

728x90