LLM Wiki 설계 도면: 3층 구조와 엔티티 중심 지능형 지식 설계

LLM RAG에 대한 글을 공유 받고, 이 글을 AI와 공부한 내용을 정리해서 업로드 합니다. [LINK]

1. 지식의 위계 질서: Raw, Wiki, Schema의 3층 구조 설계

LLM 위키가 단순한 파일 뭉치로 전락하지 않으려면 엄격한 계층 구조가 필요함. 안드레이 카파시는 이를 세 가지 층위로 구분하여 관리할 것을 제안했음.

ㄱ. 첫 번째 층은 ‘Raw Sources(원천 데이터)’임.

이것은 수정이 불가능한 ‘불변(Immutable)’의 데이터로, 논문 PDF, 뉴스 기사, 일기 원본 등이 포함됨. LLM은 이 데이터를 읽기만 할 뿐 절대 직접 수정하지 않는다는 것이다. 이것이 지식의 최종적인 근거(Source of Truth)가 됨.

ㄴ. 두 번째 층은 ‘The Wiki(구조화된 지식)’
LLM이 원천 데이터를 읽고 요약, 연결, 정리하여 생성한 마크다운 파일들의 집합임. 사용자가 실제로 읽고 활용하는 지식의 정수가 담긴 층임.

ㄷ. ‘The Schema(규칙 문서)’
`AGENTS.md` 또는 `CLAUDE.md`와 같은 파일로 존재하며, LLM에게 위키의 구조, 명명 규칙, 정보 통합 절차를 지시하는 지침서임. 이 스키마 파일이 존재해야만 LLM이 일관성 있는 ‘편집장’ 역할을 수행할 수 있음.

2. 지식의 최소 단위: 엔티티(Entity)와 원자적 노트의 정의

위키 설계의 핵심은 정보를 어떻게 쪼개고 결합하느냐에 달려 있음. 여기서 도입되는 개념이 ‘엔티티 중심 설계’임.
특정 기술(예: GraphRAG), 인물, 프로젝트, 혹은 고유한 개념 자체가 하나의 파일명이 되어야 함. 이를 ‘원자적 노트(Atomic Notes)’라고 부르며, 하나의 파일에는 오직 하나의 주제만 깊이 있게 다루는 것을 원칙으로 함.

이렇게 엔티티 단위로 지식을 분절하면 정보의 재사용성이 극대화됨.
예를 들어, ‘트랜스포머 모델’에 대한 원자적 노트가 하나 있다면, 이후 ‘BERT’나 ‘GPT’ 관련 문서가 추가될 때마다 해당 노트를 참조(Link)하기만 하면 됨. 정보가 중복되지 않고 한곳으로 모이는 구조를 만드는 것이 오동작을 방지하는 지름길임.
LLM은 새로운 문서를 읽을 때마다 “이 문서에서 추출할 수 있는 새로운 엔티티는 무엇인가?”를 자문하며 지식의 영토를 확장해 나간다는 것이다.

3. 상호 연결된 지식의 망: 백링크와 지식 그래프의 활용

엔티티들이 생성되었다면 이를 유기적으로 잇는 ‘상호 연결(Interlinking)’ 작업이 수반되어야 함. 마크다운의 [[파일명]] 문법을 활용하여 문서 간의 관계를 명시함. 단순한 텍스트 나열이 아니라, 지식과 지식이 그물망처럼 얽힌 ‘지식 그래프(Knowledge Graph)’를 형성하는 과정임.

이러한 연결 구조는 LLM의 추론 성능을 비약적으로 향상시킴. 사용자가 복잡한 질문을 던졌을 때, LLM은 벡터 검색에만 의존하는 대신 미리 정의된 링크를 따라가며 문맥을 파악함.
“A 기술은 B 기술의 한계를 극복하기 위해 등장했다”는 식의 관계 정보가 이미 위키 내에 컴파일되어 있기 때문에, 별도의 추가 검색 없이도 고도로 정제된 답변이 가능해짐. 옵시디언의 ‘그래프 뷰’를 통해 이 연결망을 시각화하면 지식의 빈틈이나 밀도가 높은 핵심 주제를 한눈에 파악할 수 있음.

4. 설계 단계에서의 예외 처리와 메타데이터 관리

성공적인 위키 설계를 위해서는 마크다운 파일 상단의 ‘야멀(YAML) 프런트매터’를 적극 활용해야 함. 각 파일의 생성일, 소스 출처, 현재 상태(초안/완료), 태그 등을 정형화된 데이터로 관리하는 것이다. 이는 LLM이 수천 개의 파일 중 필요한 정보를 선별하는 필터 역할을 수행함.

또한, 설계 단계에서 ‘미결 과제’나 ‘추후 조사 필요’ 항목을 관리하는 전용 섹션을 두어야 함.
새로운 데이터를 통합하다가 정보가 부족하거나 논리적 비약이 발견되면, LLM은 이를 강제로 작성하지 않고 ‘데이터 갭(Data Gap)’으로 표시함. 이러한 예외 처리가 명확해야만 위키의 전체적인 신뢰도가 유지됨. 지식은 단순히 쌓는 것이 아니라, 검증된 사실과 추측을 엄격히 구분하여 설계해야 한다는 점을 명심해야 함.

5. 견고한 설계가 만들어내는 지능형 지식 저장소

결국 3층 구조와 엔티티 중심의 설계는 LLM이 지식을 다루는 ‘질서’를 부여하는 작업임. 설계 도면이 명확할수록 LLM의 오동작은 줄어들고, 지식은 시간이 흐를수록 더욱 견고해짐.
즉, 기초 공사가 튼튼해야 고층 건물을 올릴 수 있듯이, 이 설계 원칙을 준수하는 것이 영구적 위키 성공의 절반이다.

LLM Wiki 설계 도면 2편: 3층 구조와 엔티티 중심의 지능형 지식 설계

1. 지식의 위계 질서: Raw, Wiki, Schema의 3층 구조 설계

ㄴ. 두 번째 층은 ‘The Wiki(구조화된 지식)’
LLM이 원천 데이터를 읽고 요약, 연결, 정리하여 생성한 마크다운 파일들의 집합임. 사용자가 실제로 읽고 활용하는 지식의 정수가 담긴 층임.

2. 지식의 최소 단위: 엔티티(Entity)와 원자적 노트의 정의

3. 상호 연결된 지식의 망: 백링크와 지식 그래프의 활용

4. 설계 단계에서의 예외 처리와 메타데이터 관리

5. 견고한 설계가 만들어내는 지능형 지식 저장소

댓글 남기기 응답 취소

1. 지식의 위계 질서: Raw, Wiki, Schema의 3층 구조 설계

ㄴ. 두 번째 층은 ‘The Wiki(구조화된 지식)’ LLM이 원천 데이터를 읽고 요약, 연결, 정리하여 생성한 마크다운 파일들의 집합임. 사용자가 실제로 읽고 활용하는 지식의 정수가 담긴 층임.

2. 지식의 최소 단위: 엔티티(Entity)와 원자적 노트의 정의

3. 상호 연결된 지식의 망: 백링크와 지식 그래프의 활용

4. 설계 단계에서의 예외 처리와 메타데이터 관리

5. 견고한 설계가 만들어내는 지능형 지식 저장소

댓글 남기기 응답 취소

ㄴ. 두 번째 층은 ‘The Wiki(구조화된 지식)’
LLM이 원천 데이터를 읽고 요약, 연결, 정리하여 생성한 마크다운 파일들의 집합임. 사용자가 실제로 읽고 활용하는 지식의 정수가 담긴 층임.