로컬 KO/EN 임베딩 비교: BGE vs E5 vs MiniLM

Rhizome 개발 과정에서 로컬 환경(모바일과 데스크탑)을 아우르는 적절한 임베딩 모델을 찾기 위해 리서치를 진행했습니다. 결론부터 이야기하자면, 현재로서는 모바일과 데스크탑을 모두 만족시키는 적당한 모델을 찾지 못해 당장 기능을 추가하지는 않을 예정입니다. 하지만 그 과정에서 알게 된 로컬 KO/EN 임베딩 모델들의 비교 결과를 공유합니다.

MTEB와 명확해진 트레이드오프

최근 멀티링궐 벡터 임베딩을 평가하는 MTEB(Massive Text Embedding Benchmark) 결과가 오픈소스로 확장되며, 실전 RAG(검색 증강 생성), 검색, 문서 이해 분야에서 어떤 모델이 언제 유리한지 명확한 트레이드오프가 정리되고 있습니다.

MTEB는 수백~수천 언어와 다양한 다운스트림 태스크(분류, 군집화, 검색, STS 등)로 임베딩 품질을 종합적으로 비교합니다. (Hugging Face Leaderboard)

MTEB Leaderboard

Benchmark Results

한눈에 보는 인사이트

리서치 결과를 요약하면 다음과 같습니다.

RAG Pipeline

모델별 특징 요약

  1. multilingual‑E5‑large

    • 1024차원 벡터
    • 명령형 프롬프트와 다국어 포함 훈련으로 일반적인 검색 및 의미 유사도에서 뛰어남 (GitHub)
  2. BGE (BAAI General Embedding)

    • 장거리 컨텍스트와 고정밀 검색
    • 현대 RAG 시스템에 최적화된 임베딩, 다국어 검색/하이브리드 검색 대응 가능 (Bizety)
  3. MiniLM‑L6

    • 작은 차원, 매우 가볍고 빠른 추론
    • 데스크탑 KMS나 성능에 민감한 로컬 앱에서 효과적 (Bizety)

Comparison Chart

결론: 벤치마크가 주는 현실적 관점

MTEB는 단순한 점수뿐 아니라 다양한 언어와 태스크 세트를 사용해 벡터 임베딩을 평가한다는 점에서, 실제 RAG나 다국어 응용 환경에 가까운 비교를 제공합니다. 최근에는 1,000개 이상의 언어와 긴 문서 검색 등을 포함하는 확장판(MMTEB)도 등장하여 일반화 성능까지 테스트하고 있습니다. (arXiv)

Rhizome과 같은 로컬 퍼스트(Local-First) Tauri/KMS 환경에서는 속도 vs 정확도 vs 언어 다양성 사이의 균형을 잡는 것이 핵심입니다. 이번 리서치는 이러한 트레이드오프를 확인하는 좋은 기회였으며, 향후 모바일 환경에서도 효율적으로 동작할 수 있는 경량화 모델이나 최적화 방안이 나온다면 다시 도입을 검토해 볼 예정입니다. (modal.com)

GPT로 조사했습니다.

Join the Investigation

Get the latest updates on my projects and indie hacking journey directly in your inbox.

No spam. Unsubscribe anytime.