Building an LLM-based knowledge management system with RAGFlow
회사에서 일을 하다 보면 이런 상황을 자주 겪게 됩니다. “출장비 정책이 어떻게 되지?” 하고 궁금해서 찾아보려고 하는데, 인사규정이 어디 있는지도 모르겠고, 찾았다 해도 100페이지가 넘는 문서에서 원하는 정보를 찾는 건 쉽지 않죠.

이런 문제를 해결하기 위해 등장한 것이 바로 RAGFlow입니다. RAGFlow는 검색 증강 생성(Retrieval-Augmented Generation) 기술을 기반으로 한 오픈소스 솔루션인데요. 마치 똑똑한 사서가 회사의 모든 문서를 꿰고 있으면서 질문에 즉문즉답을 해주는 시스템이라고 생각하면 됩니다.
똑같은 질문은 ChatGPT 같은 상용 AI에게 던지면 “죄송하지만 귀하의 회사 정책은 모릅니다”라고 답한다면, RAGFlow는 “출장비는 국내 1일 5만원, 해외 1일 10만원이며, 영수증은 출장 후 1주일 이내 제출하시면 됩니다(출처: 인사규정 15페이지)”라고 정확한 근거와 함께 답변해줍니다. ✨
RAGFlow의 핵심 차별점
사실 RAGFlow 같은 LLM RAG 기반 지식 관리 솔루션들은 이미 시중에 많이 나와 있습니다. 그렇다면 RAGFlow만의 차별화 포인트는 무엇일까요?
먼저 기존 RAG 시스템들이 어떤 문제를 가지고 있는지부터 간단히 짚어 보죠.
대부분의 RAG 솔루션들은 마치 “문서 스캐너”처럼 작동합니다. PDF에서 텍스트만 추출해서 단순히 문단별로 나누는 방식입니다.
예를 들어, 복잡한 재무 보고서가 있다고 상상해보세요. 이 보고서에는 표, 차트, 각주, 여러 컬럼으로 된 레이아웃이 있습니다. 기존 시스템은 이런 구조를 무시하고 단순히 “첫 번째 문단, 두 번째 문단”으로만 나눕니다. 결과적으로 표의 헤더와 데이터가 분리되거나, 차트의 설명과 차트가 따로 처리되어 의미가 깨집니다.
반면 RAGFlow는 다음과 같은 몇 가지 차별점을 갖습니다:
1. 깊은 문서 이해 (Deep Document Understanding)
RAGFlow는 단순히 텍스트를 추출하는 것이 아니라, 문서의 구조와 의미를 이해합니다. 마치 사람이 문서를 읽는 것처럼 “이것은 제목이고, 이것은 표이고, 이것은 각주구나”라고 판단합니다.

실제 예시로 설명하면, 의학 논문에서 “표 1: 환자별 치료 결과”라는 표가 있다면, 기존 시스템은 표의 각 셀을 별도의 조각으로 나눌 수 있습니다. 하지만 RAGFlow는 표 전체를 하나의 의미 있는 단위로 인식하고, 표의 제목과 데이터를 함께 보관합니다. 나중에 “치료 결과가 어떻게 되나요?”라는 질문이 들어오면, 표 전체의 맥락을 이해하고 정확한 답변을 제공할 수 있습니다.
2. 시각적 청킹과 투명성
기존 RAG 시스템들은 대부분 “블랙박스”입니다. 시스템이 어떻게 문서를 나누었는지, 왜 특정 답변을 했는지 알 수 없습니다.
RAGFlow는 이 과정을 완전히 투명하게 만듭니다. 문서가 어떻게 나뉘었는지 시각적으로 보여주고, 사용자가 직접 수정할 수 있게 합니다. 예를 들어, 시스템이 중요한 문단을 잘못 나누었다면, 사용자가 직접 “이 두 문단은 함께 있어야 해”라고 수정할 수 있습니다. 또한 특정 문서 조각에 키워드를 추가해서 검색 성능을 향상시킬 수도 있습니다.
3. 템플릿 기반 스마트 청킹
일반적인 RAG 시스템은 모든 문서를 똑같은 방식으로 처리합니다. 하지만 신문 기사와 법률 문서, 그리고 기술 매뉴얼은 완전히 다른 구조를 가지고 있습니다.
RAGFlow는 문서 유형별로 최적화된 템플릿을 제공합니다. 법률 문서의 경우 조항별로 나누고, 기술 매뉴얼의 경우 단계별 절차를 하나의 단위로 유지하며, 학술 논문의 경우 abstract, introduction, methodology 같은 섹션별로 나눕니다. 이렇게 하면 문서의 고유한 특성을 살리면서 더 정확한 검색과 답변이 가능합니다.
4. 강력한 인용 시스템과 추적성
많은 RAG 시스템들이 답변은 제공하지만, 그 답변이 어디서 왔는지 명확하지 않습니다. “문서 A에서 가져왔다”고는 하지만, 정확히 어느 부분인지, 그 맥락이 무엇인지 알기 어렵습니다.
RAGFlow는 매우 정밀한 인용 시스템을 제공합니다. 답변의 각 부분이 어느 문서의 몇 페이지에서 왔는지 정확히 알려주고, 원본 문서의 해당 부분을 바로 확인할 수 있게 합니다. 이는 특히 법무, 의료, 금융 같은 분야에서 매우 중요합니다.
실제 비교 예시
구체적인 예시로 차이점을 알아 보겠습니다. 복잡한 제품 매뉴얼에서 “WiFi 연결 문제 해결” 섹션이 있다고 가정해봅시다.
기존 RAG 시스템의 처리:
- 조각 1: “WiFi 연결에 문제가 있을 때”
- 조각 2: “1단계: 라우터 전원을 확인하세요”
- 조각 3: “2단계: 네트워크 설정을 재설정하세요”
- 조각 4: “3단계: 기술지원에 연락하세요”
사용자가 “WiFi가 안 돼요”라고 질문하면, 시스템이 조각 1만 찾아서 “WiFi 연결에 문제가 있을 때”라는 불완전한 답변을 줄 수 있습니다.
RAGFlow의 처리:
전체 “WiFi 연결 문제 해결” 섹션을 하나의 의미 있는 단위로 인식하고, 단계별 해결 방법을 순서대로 보관합니다. 같은 질문에 대해 “WiFi 연결 문제를 해결하려면 다음 단계를 따르세요: 1단계 라우터 전원 확인, 2단계 네트워크 설정 재설정, 3단계 기술지원 연락. (출처: 사용자 매뉴얼 25-26페이지)”라는 완전한 답변을 제공합니다.
비즈니스 사용 사례
그럼 어떨 때 RAGFlow를 사용하면 좋을까요? 몇 가지 유스케이스를 들어 보겠습니다.
RAGFlow의 이런 특징들이 실제 비즈니스에서 어떤 의미를 가질까요? 기존 RAG 시스템들은 종종 “90% 정확한” 답변을 제공합니다. 하지만 고객 서비스나 법무 검토 같은 업무에서는 90%로는 충분하지 않습니다. 잘못된 정보 하나가 큰 문제를 일으킬 수 있기 때문입니다.
기존 RAG 시스템들이 단순히 텍스트를 추출해서 문단별로 나누는 것과 달리, RAGFlow는 문서의 구조와 의미를 이해합니다. 복잡한 재무 보고서의 표나 기술 매뉴얼의 단계별 절차를 하나의 의미 있는 단위로 인식해서, 문맥이 깨지지 않는 완전한 답변을 제공하죠.
고객 서비스 혁신
고객 상담원이 “제품 A와 B의 차이점은 무엇인가요?”라는 질문을 받았을 때, 매뉴얼을 뒤적거리며 고객을 기다리게 할 필요가 없습니다. RAGFlow가 즉시 정확하고 일관된 답변을 제공해주니까요. 💬

법무팀의 든든한 파트너
“지적재산권 침해 시 대응 절차는?”이라는 복잡한 질문에도 관련 법령, 사내 가이드라인, 판례를 종합해서 체계적인 답변을 제공합니다. 법무 담당자는 더 빠르고 정확한 판단을 내릴 수 있게 되죠.
법무팀에서 “계약서 검토 시 주의사항은?”이라고 물어봤을 때, 단순히 답변만 주는 것이 아니라 “계약서 검토 가이드라인 23페이지, 법무팀 매뉴얼 45페이지”처럼 정확한 출처까지 제공합니다. 이런 추적성은 기업 환경에서 매우 중요한 요소죠.
신입 직원 온보딩 가속화
새로 입사한 직원이 “연차 신청은 어떻게 하나요?” “회의실 예약 방법은?” 같은 기본적인 질문들을 할 때, 선배 직원이 일일이 알려줄 필요 없이 시스템이 친절하게 안내해줍니다. 🎓
RAGFlow 구축 단계별 따라하기
이제 간단하게 RAGFlow 구축 방법을 따라가 보겠습니다. 기본 사용 흐름은 다음과 같습니다:
- 모델 설정: OpenAI, Claude, Gemini 등 원하는 LLM 연결
- 지식 베이스 생성: 주제별로 문서 분류
- 문서 업로드: PDF, Word, Excel, PPT 등 다양한 형식 지원
- 청킹 최적화: 시각적으로 확인하고 필요시 수정
- AI 어시스턴트 생성: 맞춤형 대화 AI 완성!
1단계: 환경 준비하기
RAGFlow를 설치하려면 먼저 시스템 요구사항을 확인해야 합니다. 최소 CPU 4코어, RAM 16GB, 디스크 50GB 이상이 필요하고, Docker가 설치되어 있어야 합니다.
터미널에서 다음 명령어로 시스템 설정을 조정합니다:
# 메모리 설정 조정 (필수!)
sudo sysctl -w vm.max_map_count=262144
2단계: RAGFlow 설치하기
# 소스 코드 다운로드
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker
# RAGFlow 시작 (CPU 버전)
docker compose -f docker-compose.yml up -d
설치가 완료되면 다음 명령어로 시스템 상태를 확인합니다. RAGFlow 로고가 나타나면 성공! 🎉
$ docker logs -f ragflow-server main
Starting nginx...
Starting ragflow_server...
Starting 1 task executor(s) on host '4ff8ed771fd5'...
2025-06-20 14:45:39,914 INFO 22 ragflow_server log path: /ragflow/logs/ragflow_server.log, log levels: {'peewee': 'WARNING', 'pdfminer': 'WARNING', 'root': 'INFO'}
2025-06-20 14:45:40,701 INFO 22 can't import package 'torch'
2025-06-20 14:45:46,584 INFO 22 init database on cluster mode successfully
2025-06-20 14:45:50,313 INFO 22 load_model /ragflow/rag/res/deepdoc/det.onnx uses CPU
2025-06-20 14:45:50,441 INFO 22 load_model /ragflow/rag/res/deepdoc/rec.onnx uses CPU
2025-06-20 14:45:57,394 INFO 22
____ ___ ______ ______ __
/ __ \ / | / ____// ____// /____ _ __
/ /_/ // /| | / / __ / /_ / // __ \| | /| / /
/ _, _// ___ |/ /_/ // __/ / // /_/ /| |/ |/ /
/_/ |_|/_/ |_|\____//_/ /_/ \____/ |__/|__/
2025-06-20 14:45:57,394 INFO 22 RAGFlow version: v0.19.0 slim
2025-06-20 14:45:57,395 INFO 22 project base: /ragflow
이제 브라우저에서 http://서버주소
로 접속할 수 있습니다.

3단계: AI 모델 연결하기
RAGFlow는 OpenAI GPT, Claude, Gemini 등 다양한 AI 모델과 연결할 수 있습니다. 화면 우측 상단의 프로필 메뉴에서 “Model providers”를 클릭하고, 원하는 모델의 API 키를 입력하면 됩니다.


💡 팁: 처음에는 OpenAI의 GPT-4를 추천합니다. 성능과 안정성이 검증된 모델이거든요.
4단계: 지식베이스 구축하기
“Knowledge Base” 탭에서 새로운 지식베이스를 만들고, 회사의 문서들을 업로드합니다. PDF, Word, Excel, PowerPoint 등 다양한 형식을 지원하니까 기존 문서를 그대로 활용할 수 있어요.

중요한 건 청킹 템플릿 선택입니다:
- 일반 문서: “General” 템플릿
- 표가 많은 문서: “Table” 템플릿
- FAQ 형식: “Q&A” 템플릿
앞서도 설명했듯, RAGFlow는 기업 환경의 다양한 문서 형식에 맞춰 각각 다른 RAG 청킹 방식을 지정할 수 있습니다.

5단계: 성능 최적화하기
문서 처리가 완료되면 청킹 결과를 확인해보세요. 시스템이 문서를 어떻게 나누었는지 시각적으로 볼 수 있고, 잘못된 부분은 직접 수정할 수 있습니다. 이 과정이 RAGFlow의 핵심 차별점이에요! 🔧
“Retrieval testing”에서 간단한 질문을 해보며 답변 품질을 확인하고, 필요하면 키워드를 추가하거나 청킹을 조정합니다.

성공적인 RAGFlow 도입 전략
PoC부터 시작하기
처음엔 작은 규모로 시작하세요. HR팀의 인사 규정이나 IT팀의 기술 문서 같은 특정 영역부터 구축해서 효과를 확인한 후 점차 확대하는 것이 안전합니다.
사용자 피드백 수집하기
시스템을 사용하면서 “이런 질문에는 답을 못 하네” “이 답변은 정확하지 않아” 같은 피드백을 수집하고 지속적으로 개선해나가세요. RAGFlow는 사람이 개입할 수 있도록 설계되어 있어서, 이런 피드백을 쉽게 반영할 수 있습니다.
성과 측정하기
- 정보 검색 시간이 얼마나 단축되었는지
- 고객 문의 응답 시간이 개선되었는지
- 직원 만족도가 향상되었는지
이런 지표들을 측정해서 RAGFlow의 비즈니스 가치를 입증하세요.
AI 시대에 걸맞는 지식 관리 시스템
RAGFlow는 단순한 검색 도구가 아닙니다. 조직의 집단 지성을 개인이 쉽게 활용할 수 있게 하는 지식 증폭기라고 할 수 있죠. 기존 RAG 솔루션들이 90% 정확도로 만족했다면, RAGFlow는 정확성과 신뢰성을 한 단계 끌어올리면서도 투명성을 보장하는 차세대 솔루션입니다.
여러분의 조직이 방대한 문서 더미 속에서 필요한 정보를 찾느라 시간을 낭비하고 있다면, RAGFlow를 통해 지식의 확장을 시도해 보세요. 수십 년간 축적된 회사의 노하우가 모든 직원에게 즉시 공유되는 세상, 상상만 해도 흥미롭지 않나요?
지금 당장 작은 프로젝트부터 시작해보세요. 여러분의 조직도 RAGFlow와 함께 지식 관리의 혁신을 경험할 수 있을 것입니다. ✨