RAG 한계와 보완 전략

청킹의 한계

RAG에서 문서를 벡터화하려면 적당한 크기로 잘라야 하는데, "적당한"의 기준이 없다.

정답은 없고, 문서 특성에 맞게 실험해야 한다.

RAG가 할루시네이션을 줄이는 거지 없애는 게 아니다.

검색 실패 — 질문과 관련 없는 청크가 top-k에 들어옴. LLM은 그걸 기반으로 답하니까 엉뚱한 답이 나옴.

과잉 해석 — 컨텍스트에 "RBAC는 역할 기반"이라고만 있는데, LLM이 구체적인 구현 코드를 지어냄. 있는 내용을 넘어서 추론하는 것.

답 없음 무시 — 벡터DB에 답이 없는 질문인데, LLM이 일반 학습 지식으로 채워서 답함. "모르겠다"고 안 하고 그럴듯하게 답하는 게 제일 위험.

"노트에 없는 내용은 답하지 마"라고 써도 LLM은 지시를 확률적으로 따른다. 컨텍스트와 질문이 애매하게 겹치면 LLM 입장에서 "있는 내용인지 아닌지" 판단이 흐려짐.

1차 벡터 검색으로 후보 20개를 뽑고, 2차로 Cross-Encoder 모델이 질문-문서 쌍의 관련성을 다시 평가. 벡터 검색보다 정확하지만 느림. 그래서 2단계로 씀.

질문 → 벡터 검색 (top-20, 빠름) → Reranker (top-3, 정확함) → LLM

벡터 검색(의미)과 키워드 검색(정확한 단어 매칭)을 합치는 것.

답변과 함께 근거 문서를 보여줘서 사용자가 직접 검증할 수 있게. "이 답변은 RBAC.md > 개념 섹션 기반입니다" 형태. 할루시네이션을 막진 못하지만 발견은 할 수 있게.

검색 결과의 거리(distance)가 임계값보다 크면 "관련 내용을 찾지 못했습니다"로 답하게. LLM이 억지로 답하는 걸 방지.

if results["distances"][0][0] > 0.5:
    return "관련 노트를 찾지 못했습니다."

답변 품질을 자동 측정하는 구조.

RAGAS, TruLens 같은 프레임워크가 이걸 자동화해줌.

RAG는 "LLM에 커닝페이퍼를 주는 것"이지만, 커닝페이퍼를 잘못 만들거나(청킹), 잘못 골라주거나(검색), LLM이 커닝페이퍼 밖의 내용을 답하는(할루시네이션) 문제가 있다. 이걸 인정하고 보완 전략을 쌓는 게 RAG 엔지니어링의 핵심이다.