공인중개사 시험 문제 생성기: 최적 구축 파이프라인 workflow

Gemma 3 4B 모델을 기준으로, 최적화된 데이터 준비부터 Colab 파인튜닝, RAG 구성, Hugging Face Spaces (ZeroGPU) 서비스까지 전체 작업 파이프라인 설계

1. 아이디어 및 목표 구체화

이 프로젝트의 목표는 한국어 공인중개사 자격시험의 연습 문제를 자동 생성하는 AI 시스템을 구축하는 것이다.

모델: Gemma 3 4B
- 이를 위해 개방형 대형언어모델 Gemma 3 4B를 기반 모델로 선정한다.
- Gemma 3 시리즈는 구글이 공개한 최신 모델로, 140여 개 언어를 사전 학습하여 한국어도 지원하는 다국어 모델이다 (Gemma 3: Google’s new open model based on Gemini 2.0).
Domain data:
- 이 경량 모델을 사용자 도메인 데이터로 추가 파인튜닝하고,
RAG: 검색 기반 정보추출(RAG) 기법을 결합
- 검색 기반 정보추출(RAG) 기법을 결합함으로써, 실제 시험과 유사한 양질의 문제를 생성하도록 설계한다.
Interface:
- 최종 시스템에서는 사용자가 웹 인터페이스를 통해 특정 주제나 키워드를 입력하면, 모델이 해당 주제에 맞는 4지선다형 객관식 문제를 생성해주는 기능을 제공하는 것을 목표로 한다.

2. 데이터셋 준비 및 전처리

모델이 양질의 문제를 생성하려면 우선 도메인에 특화된 학습 데이터셋이 필요하다. 공인중개사 시험과 관련된 기출문제와 해설, 부동산 관련 법령/이론 텍스트를 최대한 확보한다. 데이터는 모델의 훈련 용도이므로, 라이선스 문제가 없는 공개 자료나 직접 작성한 문항을 사용하는 것이 바람직하다. 데이터 구성 시 다음 원칙을 따른다:

적합성 및 청결:
- 수집한 데이터는 목표 용도에 부합해야 하며, 오탈자 없이 깨끗하게 정제한다. 실제 기출 문제를 사용한다면 선택지 및 정답 표시 등을 일관되게 정리한다.
충분한 양과 다양성:
- 가능하면 수천 문항 이상의 예제를 확보한다. 많을수록 좋지만, 최소 수천 문항은 있어야 모델이 패턴을 학습하기에 충분하다 (Fine-tuning Gemma 3 on a Custom Web Dataset With Firecrawl and Unsloth AI).
- 또한 부동산학개론, 공인중개사법, 민법 등 여러 과목 주제를 고르게 포함하여 다양성을 확보한다 (Fine-tuning Gemma 3 on a Custom Web Dataset With Firecrawl and Unsloth AI).
통일된 포맷:
- 데이터는 지시(instruction) - 응답(response) 형식으로 통일한다 (Fine-tuning Gemma 3 on a Custom Web Dataset With Firecrawl and Unsloth AI).
- 예를 들어 JSON Lines(JSONL) 형태로 각 줄에 {"instruction": ..., "input": ..., "output": ...} 필드를 두고, 문제 생성을 위한 프롬프트와 결과를 명시한다.
- 경우에 따라 instruction에 문제 작성 명령(예: "다음 주제에 대해 문제를 만들어주세요")과 input에 구체적인 지문이나 주제, output에 실제 문제와 선택지를 넣는 식으로 설계한다. 이렇게 일관된 포맷을 사용하면 모델이 학습하기 수월하다.

데이터셋을 만드는 방법으로는 세 가지 정도를 고려할 수 있다:

수작업 작성: 도메인 전문가나 교사가 직접 문항을 작성한다. 가장 품질이 높지만 매우 많은 시간과 노력이 든다.
LLM 보조 생성: 기존에 있는 대형언어모델을 활용해 초기 문항을 대량 생성한 뒤, 사람이 검수/편집하여 사용하는 방법이다 (Fine-tuning Gemma 3 on a Custom Web Dataset With Firecrawl and Unsloth AI). 예를 들어, 부동산 관련 법령 텍스트를 LLM에게 요약하게 한 후 그 요약을 바탕으로 문제를 만들어보게 할 수 있다. 이렇게 하면 완전 수작업보다 훨씬 빠르면서도 어느 정도 품질을 확보할 수 있다 (Fine-tuning Gemma 3 on a Custom Web Dataset With Firecrawl and Unsloth AI).
데이터 변환/크롤링: 공개되어 있는 기출 문제 데이터를 웹에서 크롤링하거나, 부동산 법령집/교재를 QA 형식으로 변환하는 방법이다. 예를 들어, 법 조문의 내용을 질문 형태로 바꾸거나, 교재의 장 끝 연습문제를 추출하는 식이다. 크롤링에는 페이지 구조 변동에 강인한 도구를 사용하고, 변환된 문장도 사람이 확인하여 오류를 줄인다.

준비된 최종 데이터셋은 모델이 시험 문제 출제 스타일을 학습할 수 있도록 전처리한다. 특히 한국어 다국어 모델의 특성을 감안하여 인코딩을 통일하고 (utf-8 등), 문장 분리 기호나 단락 구분을 명확히 한다. 또한 문제 텍스트와 선택지 사이에 특별한 구분선(예: 줄바꿈이나 번호 등)을 넣어 모델이 형식을 익히도록 한다. 이렇게 구성된 데이터셋을 다음 단계에서 모델 파인튜닝에 활용한다.

3. Colab에서의 모델 파인튜닝 (Unsloth + QLoRA)

데이터셋이 준비되었으면, Colab 환경에서 모델을 파인튜닝한다. 여기서는 한정된 자원으로 효율적으로 학습하기 위해 QLoRA(Quantized LoRA) 기술을 활용하고, 이를 쉽게 구현해주는 Unsloth 라이브러리를 사용한다. QLoRA는 모델 가중치를 양자화하여 메모리 사용을 줄이면서 LoRA 미세튜닝을 적용하는 기법으로, 대형 모델도 소량의 VRAM으로 미세조정할 수 있게 해준다 (Quantized low-rank adaptation (QLoRA) fine tuning). Unsloth는 Gemma 3 같은 모델을 Colab의 Tesla T4 같은 환경에서 안정적으로 학습시키기 위해 개발된 툴로, float16 연산 이슈를 해결하고 메모리 효율을 극대화하여 QLoRA 등의 기법을 바로 지원한다 (Fine-tuning Gemma 3 on a Custom Web Dataset With Firecrawl and Unsloth AI). 이를 통해 Gemma 3 4B 모델을 사용자의 부동산 데이터에 맞춰 추가 훈련시킨다.

파인튜닝의 주요 절차는 다음과 같다:

환경 설정: Colab 노트북에서 !pip install unsloth transformers datasets accelerate bitsandbytes peft 등을 실행하여 필요한 라이브러리를 설치한다. bitsandbytes는 8-bit/4-bit 양자화 라이브러리이고, peft는 LoRA 등의 파라미터 효율화 튜닝을 지원한다.
모델 로드: Hugging Face Hub에서 Gemma 3 4B 모델을 불러온다. 이때 Instruct 튜닝된 버전을 사용하는 것이 좋다 (google/gemma-3-4b-it 등). Unsloth/Transformers를 통해 모델 로드시 4-bit 양자화 모드로 로드하여 메모리를 절약한다. 예를 들어 AutoModelForCausalLM.from_pretrained(..., load_in_4bit=True, device_map="auto")와 같이 하면 bitsandbytes를 통해 가중치가 4-bit로 로드되어 메모리 풋프린트를 크게 줄일 수 있다 (Fine-tuning Gemma 3 on a Custom Web Dataset With Firecrawl and Unsloth AI). 이 과정에서 모델의 대부분 파라미터는 메모리에 압축된 형태로 적재되고, 연산시 필요에 따라 복구되어 사용된다.
토크나이저 준비: AutoTokenizer.from_pretrained(...)를 통해 해당 모델의 토크나이저를 불러온다. 한글 데이터에 문제가 없도록 tokenizer.pad_token = tokenizer.eos_token 등의 처리를 해두고, 필요하면 truncate 옵션으로 시퀀스 최대 길이를 조정한다 (Gemma 3는 128k 토큰까지 지원하지만 메모리상 Colab에서는 훨씬 작은 입력으로 제한).
데이터 로드: 준비한 전처리된 데이터셋을 datasets 라이브러리로 불러온다. 예를 들어 JSONL 파일을 Hugging Face Hub에 올려두었다면 load_dataset("username/dataset_name")으로 불러올 수 있다. 불러온 데이터셋 객체를 train_test_split 등으로 나눠 학습용과 평가용으로 사용할 수 있다. 그리고 각 예제를 토크나이저로 인코딩하고, 모델이 지도학습할 수 있는 형식(예: "input_ids", "attention_mask", "labels")으로 변환한다.
LoRA 설정: 파인튜닝에서는 **LoRA(저랭크 어댑터)**만 학습하고 나머지 모델 파라미터는 고정한다. peft 라이브러리를 사용하면 손쉽게 LoRA 구성을 적용할 수 있다. 예를 들어 peft.LoraConfig(r=16, lora_alpha=32, target_modules=["q_proj","v_proj"], ... ) 식으로 쿼리/값 프로젝션 층에 LoRA 모듈을 삽입하도록 설정한다. 이렇게 하면 수백만 개 정도의 추가 파라미터만 학습하며, 메모리 사용도 크게 줄어든다. QLoRA를 위해 bnb_4bit 옵티마이저를 사용하고 Gradient Checkpointing 등을 활성화하여 메모리 절약을 극대화한다.
훈련 시작: 🤗 Transformers의 Trainer 또는 Unsloth의 SFTTrainer 등을 활용해 파인튜닝을 수행한다. 이때 학습 인자(하이퍼파라미터)를 신중히 설정한다. 예를 들어, Epoch 수는 데이터셋 크기에 따라 1~3회 정도 반복하고, 배치 크기는 Colab VRAM에 맞게 (예: 4 또는 8)로 설정한다. 학습률은 보통 2e-4 수준에서 시작해서 모니터링하며 조정한다. Unsloth는 내부적으로 FP16 대신 bfloat16 등을 활용하고 그레이디언트 체크포인팅을 적용하여 T4에서도 Gemma 3 4B의 학습을 안정적으로 수행한다. 학습 중간에 로그를 확인하면서 수렴 여부를 판단하고, 필요하면 중간에 save_pretrained로 체크포인트를 저장해 둘 수도 있다.
모델 저장 및 검증: 학습 완료 후 trainer.save_model() 등을 호출하여 파인튜닝된 모델 가중치를 저장한다. LoRA 방식으로 학습한 경우, Adapter 모델만 저장되며(기본적으로 수 MB~수십 MB 정도), 추후 이를 기반 모델과 합쳐 사용한다. 저장된 결과를 Hugging Face Hub에 업로드해 두면(예: model.push_to_hub("username/gemma-3-4b-finetuned")), 나중에 쉽게 로드하여 inference에 사용할 수 있다. 간단한 검증을 위해 학습된 모델을 불러와 몇 가지 예시 주제로 문제 생성을 시도해보고, 출력의 형식과 품질이 적절한지 확인한다.

以上의 과정을 통해 사용자 데이터에 특화된 문제 생성 모델을 얻을 수 있다. QLoRA를 사용했으므로 전체 파라미터를 재학습하지 않고도 효율적으로 원하는 작업 능력을 주입할 수 있었다. 예컨대 4B짜리 Gemma 모델을 4bit로 양자화하여 LoRA 학습하면, 수십억 개의 모델 파라미터 대신 상대적으로 적은 수의 LoRA 파라미터만 조정하므로, Colab과 같은 제한된 환경에서도 무리 없이 훈련이 가능하다 (Quantized low-rank adaptation (QLoRA) fine tuning). Unsloth 라이브러리를 활용함으로써 이러한 세팅이 간소화되고 학습 속도도 향상된다.

4. 정보 검색 기반 생성 (RAG: Retrieval-Augmented Generation)

(RAG 101: Demystifying Retrieval-Augmented Generation Pipelines | NVIDIA Technical Blog) RAG(리트리벌 증강 생성)의 전체 흐름을 보여주는 다이어그램이다. 왼쪽의 (1)번 문서 삽입 단계에서는 기업 지식베이스나 문서(PDF 등)로부터 데이터를 전처리하고 임베딩하여 벡터 DB에 저장한다. 오른쪽의 (2)번 질의 및 생성 단계에서는 사용자의 질문을 받아 관련 정보를 검색(Retrieval)한 뒤, 그 문맥과 함께 LLM에 입력하여 답변을 생성한다. 이러한 RAG 파이프라인을 도입하면, 모델이 자기 파라미터에 저장된 지식뿐만 아니라 외부 지식을 필요 시 불러와 활용할 수 있어 응답의 정확도와 최신성을 높일 수 있다 (Advanced Retrieval-Augmented Generation (RAG) and Fine-Tuning Techniques for LLMs (LoRA, QLoRA, Adapters) | by Aditya Kumar | Apr, 2025 | Medium).

공인중개사 문제 생성기에 RAG를 적용하는 방식은 다음과 같다:

지식베이스 구축(오프라인): 우선 부동산 관련 도메인 지식베이스를 구축한다. 여기에는 공인중개사 시험 과목의 교재 내용, 관련 법령 조문, 기출문제 해설 등을 포함한다. 이러한 문서를 모두 모아 텍스트 화일로 정리한 다음, 임베딩 모델(예: 멀티언어 SBERT 등)을 이용해 각 문서를 벡터로 변환하고, 벡터 DB(예: FAISS, Milvus 등)에 저장해 둔다. 이 단계는 미리 한 번 수행해 놓는 것으로, RAG를 위한 문서 색인(indexing) 단계에 해당한다. 이후 시스템은 이 벡터 DB를 참고하여 질의에 맞는 문서를 찾아줄 수 있다.
질의 변환 및 검색: 사용자가 특정 주제나 키워드를 입력하면, 우선 해당 질의를 검색에 적합한 형태로 변환한다. 간단한 경우 사용자의 입력 문장 자체를 임베딩 모델로 벡터화하여 벡터 DB에서 유사도가 가장 높은 문서 조각 Top-k를 검색한다. 경우에 따라서는 질의에서 핵심 키워드만 추출하거나, 한국어 질의를 영어 임베딩 모델에 넣기 위해 번역하는 등의 전처리를 할 수 있다. 검색 단계에서는 미리 구축한 지식베이스에서 관련도 높은 정보를 찾아오므로, 모델이 모르는 최신 내용이나 세부 규정도 맥락으로 확보할 수 있다 (Advanced Retrieval-Augmented Generation (RAG) and Fine-Tuning Techniques for LLMs (LoRA, QLoRA, Adapters) | by Aditya Kumar | Apr, 2025 | Medium).
문맥 추가 및 문제 생성: 검색된 상위 k개의 문서 조각들을 컨텍스트로 활용하여, 파인튜닝된 LLM에게 문제 생성을 요청한다. 프롬프트를 구성할 때, 우선 모델에게 참고 정보임을 알리기 위해 문맥을 넣어주고, 그 다음에 실제 생성 명령을 작성한다. 예를 들어:
참고 자료: "{retrieved_context_1}" "{retrieved_context_2}" ... (생략) ... 위 자료를 참고하여, 공인중개사 시험 스타일의 4지선다 문제를 한 문항 만들어줘.
와 같이 프롬프트를 만들 수 있다. 이렇게 하면 모델은 제공된 사실 정보를 토대로 문제를 구성하게 된다. 파인튜닝된 모델은 이미 시험 문항 형식을 학습했기 때문에, 해당 문맥을 활용하여 정확하면서도 자연스러운 문제를 산출해준다. 예컨대 부동산등기법 관련 조문이 컨텍스트로 주어지면, 모델은 그 내용을 활용한 지문과 보기를 만들어낼 것이다. 이때 정답에 해당하는 선택지도 문맥에 근거하여 생성되므로, 사실에 어긋나는 오답을 감소시키는 효과가 있다.
반복 및 검증: 생성된 문항을 사용자에게 제공하고, 필요하면 정답이나 해설을 추가로 구할 수 있다. 예를 들어, 문제 생성 후 사용자가 원한다면 같은 컨텍스트로부터 모델에게 정답을 물어보거나 해설을 생성하도록 후속 프롬프트를 보낼 수 있다. RAG 시스템은 LLM이 매번 새로운 정보를 학습하지 않아도 외부 지식을 인용하여 답을 구성하므로, 모델 파라미터를 재훈련하지 않고도 다양한 최신 정보에 대응할 수 있다는 장점이 있다 (Advanced Retrieval-Augmented Generation (RAG) and Fine-Tuning Techniques for LLMs (LoRA, QLoRA, Adapters) | by Aditya Kumar | Apr, 2025 | Medium). 이는 추후 시험 제도 변경이나 법 개정이 있어도, 지식베이스만 업데이트하면 곧바로 모델 응답에 반영할 수 있음을 의미한다.

요약하면, 파인튜닝된 LLM에 RAG를 결합함으로써 두 가지 이점을 얻는다: (1) 모델은 시험 문항 작성 스타일을 이미 습득했고, (2) RAG를 통해 콘텐츠 지식을 실시간으로 얻어와 활용한다. 이러한 접근은 모델 단독으로 생성할 때보다 정확하고 신뢰도 높은 결과를 제공하며, 특히 특정 법령 조항처럼 변동이 있는 정보도 다룰 수 있게 해준다 (Advanced Retrieval-Augmented Generation (RAG) and Fine-Tuning Techniques for LLMs (LoRA, QLoRA, Adapters) | by Aditya Kumar | Apr, 2025 | Medium).

5. Hugging Face Spaces를 통한 서비스 배포 (Gradio 인터페이스)

마지막으로, 완성된 모델을 실제 사용자가 사용할 수 있는 웹 서비스 형태로 배포한다. 이를 위해 Hugging Face Hub와 Spaces 플랫폼을 활용한다. Hugging Face Hub에는 우리의 파인튜닝된 모델 가중치를 업로드해 두었으므로, 이를 곧바로 불러다 쓸 수 있다. Spaces는 Hugging Face에서 제공하는 무료 웹 호스팅 서비스로, Gradio 등의 인터페이스와 함께 머신러닝 모델 데모를 손쉽게 배포할 수 있다 (Sharing demos with others - Hugging Face LLM Course). 우리 시나리오에서는 Gradio를 이용하여 간단한 웹 UI를 만들고, 백엔드에서 모델이 동작하도록 한다.

배포 구성의 핵심 단계는 다음과 같다:

모델 업로드: 앞서 파인튜닝한 모델(예: LoRA 어댑터를 기반 모델에 병합한 최종 가중치)을 Hugging Face Hub의 개인 리포지토리에 업로드한다. 이때 모델 카드(README.md)에 사용 방법과 예시를 함께 적어두면 좋다. 업로드한 모델은 username/모델이름으로 식별된다.
Space 생성: Hugging Face 사이트에서 신규 Space를 만들고, SDK 유형으로 Gradio를 선택한다. 하드웨어 가속 옵션으로는 **“ZeroGPU”**를 선택한다. ZeroGPU는 Spaces의 특별 옵션으로, GPU를 상시 점유하지 않다가 요청이 올 때만 백엔드에서 NVIDIA A100 GPU를 동적으로 할당해주는 기능이다 (Spaces ZeroGPU: Dynamic GPU Allocation for Spaces). 이를 사용하면 비용을 크게 줄이면서도 무거운 모델을 GPU로 돌릴 수 있다 (개인 계정에서 사용하려면 PRO 구독이 필요할 수 있다).
종속성 설정: Space 저장소의 requirements.txt 파일에 필요한 파이썬 패키지를 명시한다. 예를 들어 transformers, torch, sentence_transformers(만약 임베딩 검색에 사용한다면), gradio 등을 적어두면 Space가 빌드될 때 자동으로 설치한다.

Gradio 인터페이스 구현: Space의 핵심은 app.py 파일로, 여기에 웹 인터페이스와 모델 동작 코드를 작성한다. 예시적으로 간략한 구조를 보면:

import gradio as gr
from transformers import AutoModelForCausalLM, AutoTokenizer
# 1. 모델 불러오기
model_name = "username/gemma-3-4b-finetuned"  # 업로드한 모델 경로
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 2. (선택) 벡터 DB 및 임베딩 모델 초기화
# 예: load FAISS index, load sentence transformer model for embeddings, etc.
# 3. 답변 생성 함수 정의
def generate_question(topic):
    # 검색 단계: 주제를 바탕으로 벡터DB에서 문맥 검색
    context = retrieve_relevant_text(topic)  # 사용자 정의 함수: topic -> 관련 문서 텍스트
    # 프롬프트 구성
    prompt = f"자료: {context}\n주제: {topic}\n문제:"
    # 모델 생성
    inputs = tokenizer(prompt, return_tensors='pt')
    outputs = model.generate(**inputs, max_new_tokens=200)
    result = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return result.strip()
# 4. Gradio UI 구성
iface = gr.Interface(
    fn=generate_question,
    inputs=gr.Textbox(lines=1, placeholder="생성할 문제의 주제 또는 키워드 입력"),
    outputs=gr.Textbox(lines=5),
    title="공인중개사 문제 생성기",
    description="주제를 입력하면 해당 주제와 관련된 공인중개사 시험 스타일의 객관식 문제를 생성합니다."
)
iface.launch()

위와 같은 코드를 작성한다. 핵심은 generate_question 함수로, 사용자의 입력을 받아 앞서 설명한 RAG 과정을 거쳐 문제를 생성한 뒤 문자열로 반환한다. Gradio 인터페이스는 텍스트박스를 통해 입력을 받고 출력 영역에 결과를 보여주도록 설정한다. Spaces는 이 app.py를 실행하여 웹 UI와 모델 백엔드를 제공한다 (Sharing demos with others - Hugging Face LLM Course). 이렇게 하면 별도의 웹 서버 구축 없이 곧바로 누구나 접속 가능한 웹 페이지에서 우리 모델을 사용할 수 있다.

테스트 및 수정: Space가 빌드되고 나면 실제 웹에서 시연해본다. 예를 들어 "중개보수 계산" 같은 키워드를 넣어 문제를 생성시켜 보고, 결과가 만족스러운지 확인한다. 만약 출력 형식이 이상하면 프롬프트를 조정하거나, 필요하다면 모델을 추가로 파인튜닝하여 개선할 수 있다. Gradio 인터페이스 옵션으로 예시 입력을 설정해두면 사용자들이 쉽게 활용해볼 수 있다.
최적화: Spaces에서의 추론 속도를 높이기 위해 추가 최적화를 고려한다. 모델이 여전히 무겁다면 4-bit 양자화 상태로 CPU에서 동작하도록 transformers의 Optimum이나 ONNX 런타임으로 변환할 수 있다. 혹은 응답을 스트리밍 출력하도록 만들어 대기 시간을 줄일 수 있다. 다행히 Gemma 3 4B 정도는 충분히 작아서 A100 ZeroGPU 환경이면 실시간 응답이 가능하고, CPU만으로도 수 초 이내에 결과를 얻을 수 있을 것이다.
공개 배포: 테스트를 마친 Space를 공개 공개로 설정하면 다른 사용자들이 찾아와서 사용할 수 있다. Spaces 링크를 공유하면 누구나 브라우저에서 우리 공인중개사 문제 생성기를 체험할 수 있게 된다. Hugging Face Spaces에 호스팅함으로써, 별도의 인프라 비용이나 서버 관리 부담 없이도 안정적인 서비스 제공이 가능하다.

6. 최적 솔루션의 요약 및 기대 효과

시간/자원 절약: 제안한 파이프라인은 사용자의 시간과 비용을 최소화하도록 구성되었다. 경량 모델인 Gemma 3 4B를 선택하고, QLoRA 기반 LoRA 미세튜닝을 수행함으로써 대형 모델을 통째로 재학습하는 부담을 줄였다 (Quantized low-rank adaptation (QLoRA) fine tuning). 예를 들어 수십 기가바이트의 GPU 메모리가 필요한 풀 파인튜닝 대신, 4bit 양자화 및 일부 파라미터(LoRA)만 학습하여 Colab 환경에서도 충분히 모델을 전문화시켰다. 또한 부족한 정보는 모두 RAG로 보완하기 때문에, 초기 학습데이터도 필수적인 부분만 포함하면 되어 데이터 준비 시간도 절약된다.
정확도 및 최신성 향상: RAG 도입으로 모델은 최신 정보와 사실 자료를 참고하여 문제를 만든다. 이에 따라 잘못된 내용을 묻거나 헛된 정보를 만들어내는 **환각(hallucination)**을 크게 줄이고, 실제 시험에 맞는 정확한 문항을 얻을 수 있다 (Advanced Retrieval-Augmented Generation (RAG) and Fine-Tuning Techniques for LLMs (LoRA, QLoRA, Adapters) | by Aditya Kumar | Apr, 2025 | Medium). 특히 법령 개정이나 시장 변화와 같이 시시각각 갱신되는 정보도 지식베이스만 업데이트하면 즉각 반영할 수 있으므로, 모델을 재훈련하지 않고도 최신 내용을 다룰 수 있다 (Advanced Retrieval-Augmented Generation (RAG) and Fine-Tuning Techniques for LLMs (LoRA, QLoRA, Adapters) | by Aditya Kumar | Apr, 2025 | Medium). 이는 단순 미세튜닝만 한 정적 모델보다 훨씬 유연하고 신뢰도 높은 결과를 제공한다.
배포 용이성과 비용 효율: Hugging Face Hub와 Spaces를 활용한 덕분에, 복잡한 서버를 직접 구축하지 않고도 웹 서비스를 런칭할 수 있었다 (Sharing demos with others - Hugging Face LLM Course). 무료 Spaces 환경에서 ZeroGPU 기능을 사용하여 필요한 순간에만 GPU를 할당받는 방식으로 서비스 운영 비용을 최소화했다 (Spaces ZeroGPU: Dynamic GPU Allocation for Spaces). 사용자는 별도의 설치 없이 웹 브라우저만으로 모델을 사용할 수 있어 접근성이 높고, 개발자는 Hub에 올라간 모델 버전을 관리하면서 필요시 업데이트를 배포하는 형태로 손쉬운 MLOps가 가능하다.
확장성과 유지보수: 이 파이프라인은 추후에도 쉽게 반복 적용하거나 확장할 수 있다. 새로운 데이터(예를 들어 더 많은 기출문제)가 확보되면 Colab에서 추가 파인튜닝을 수행해 성능을 향상시킬 수 있다. 또는 모델 자체를 더 성능 좋은 상위 버전(Gemma 3 12B 등)으로 교체하고 같은 절차를 따르면 개선된 품질을 얻을 수 있다. RAG 구성도 데이터 소스만 교체하면 다른 도메인에 적용 가능하므로, 재사용성이 높다. 전반적으로, 본 설계는 제한된 자원으로 최대의 효과를 내도록 구성된 최적해 솔루션이며, 사용자에게는 최소한의 노력으로 공인중개사 시험 대비를 위한 문제 생성 서비스를 제공할 수 있을 것으로 기대된다.