LLM RAG에 대한 글을 공유 받고, 이 글을 AI와 공부한 내용을 정리해서 업로드 합니다. [LINK]
1. 기존 RAG 방식의 구조적 결함과 지식의 휘발성
현재 대부분의 AI 서비스가 채택하고 있는 RAG(Retrieval-Augmented Generation)는 사용자의 질문이 들어오는 순간 관련 문서를 검색하여 답변을 생성하는 방식임. 하지만 이 방식은 근본적인 한계를 지니고 있다는 것이다. 질문이 발생할 때마다 원시 데이터(Raw Data)에서 정보를 다시 추출해야 하므로, 지식이 축적되지 않고 매번 새롭게 발견되는 과정을 반복함.
이러한 현상을 전문 용어로 ‘지식의 휘발성’이라고 부름.
예를 들어, 5개의 서로 다른 논문을 종합해야 답변할 수 있는 복잡한 질문이 던져졌을 때, 일반적인 RAG는 각 논문의 단편적인 조각들을 가져와 그때그때 이어 붙이는 수준에 그침. 정보 사이의 깊은 연관성이나 논리적 모순을 사전에 파악하고 있지 않기 때문에 답변의 깊이가 얕아질 수밖에 없음.
노트북LM(NotebookLM)이나 챗GPT의 파일 업로드 기능 역시 이러한 실시간 검색의 범주에 머물러 있다는 점을 직시해야 함.
2. 안드레이 카파시가 제안한 LLM Wiki: 지식을 컴파일하라
안드레이 카파시(Andrej Karpathy)는 이러한 소모적인 검색 구조를 타파하기 위해 ‘영구적인 위키(Persistent Wiki)’라는 개념을 제시했음.
이것은 사용자와 원시 소스 사이에 위치하며, 구조화되고 상호 연결된 마크다운(Markdown) 파일들의 모음임.
가장 큰 차이점은 새로운 소스가 추가될 때 LLM이 단순히 색인(Indexing)만 하는 것이 아니라, 소스를 정독하고 핵심 정보를 추출하여 기존 위키에 ‘통합(Integration)’한다는 점임.
이는 소프트웨어 공학에서 소스 코드를 실행 파일로 만드는 ‘컴파일’ 과정과 매우 유사함. 지식은 단 한 번만 컴파일되면 항상 최신 상태로 유지되며, 쿼리할 때마다 지식을 재구성할 필요가 없다는 것이다. 즉, LLM이 ‘도서관 사서’에서 ‘백과사전 편집자’로 진화하는 과정임.
3. 엔티티 중심 지식 관리와 마크다운의 강력한 시너지
영구적 위키의 핵심 단위는 문장이 아니라 ‘엔티티(Entity, 개체)’임. 특정 인물, 기술 개념, 프로젝트 명칭 등이 각각 하나의 마크다운 페이지가 됨. 새로운 데이터가 들어오면 LLM은 해당 엔티티 페이지를 찾아가 내용을 업데이트하고, 다른 관련 페이지와의 백링크(Backlink)를 자동으로 생성함.
마크다운 형식을 사용하는 이유는 인간과 AI가 동시에 읽고 수정할 수 있는 가장 유연한 포맷이기 때문임. 텍스트 기반이므로 깃(Git)을 통한 버전 관리가 가능하며, 이는 정보가 왜곡되었을 때 언제든 과거의 사실로 돌아갈 수 있는 안전장치가 됨. 또한, 옵시디언(Obsidian)과 같은 도구를 활용하면 지식 간의 연결 구조를 시각적인 그래프로 확인할 수 있어 전체적인 지식의 밀도를 파악하기에 용이함.
4. 사실에 기반한 정보 통합과 상충 관리의 중요성
위키 관리에서 가장 경계해야 할 것은 환각(Hallucination)임. 카파시의 패턴은 LLM에게 엄격한 ‘편집장’ 역할을 부여함. 새로운 정보가 기존 위키의 주장과 정면으로 배치될 경우, LLM은 이를 무시하거나 덮어쓰지 않고 ‘상충 마커(Conflict Marker)’를 표시함.
“2024년 기록에는 A라고 기술되었으나, 2026년 최신 소스에서는 B라고 수정됨”과 같은 히스토리성 주석을 남기는 것이다.
이는 지식의 선후 관계를 명확히 하여 오동작을 방지하는 결정적인 역할을 수행함. 단순히 정보를 나열하는 것이 아니라, 사실 관계의 진위와 변화 과정을 추적하는 것이 영구적 위키의 본질적인 가치임.
5. 지능형 지식 OS의 첫걸음
영구적 위키를 구축한다는 것은 단순한 메모를 넘어 나만의 ‘지식 운영체제(Knowledge OS)’를 만드는 것과 같음. 정보가 쌓일수록 검색 비용은 줄어들고 답변의 정확도는 기하급수적으로 높아짐. 지식의 복리 효과가 발생하는 지점이 바로 여기!!!!