My Dev & Engineering Repository

이번 글에선 Retrieve Augmented Generation (RAG)에 데하여 한번 알아보겠습니다.

Retrieve Augmented Generation (RAG)

RAG(Retrieve-Augmented Generation)은 대규모 언어 모델(LLM)의 한계점을 극복하고 더 정확하고 풍부한 응답을 제공하기 위해 고안된 아키텍처입니다.

RAG는 특정 질의에 대해 외부 지식 베이스에서 관련 정보를 검색한 후, 이 정보를 기반으로 텍스트를 생성하는 방식으로 작동합니다.

특히 정보가 풍부한 응답을 생성하는 데 유리합니다.

RAG Architecture

RAG(Retrieve Augmented Generation)은 크게 세 가지 단계로 구성됩니다.
Retrieve 단계, Augmented 단계, 그리고 Generate 단계입니다.

RAG의 주요 구조

1. Retrieve 단계

문서 검색: 이 단계에서는 사용자가 입력한 질의(query)와 관련된 정보를 외부 지식 베이스(예: 웹 문서, 데이터베이스, 전문 문헌)에서 검색합니다.
임베딩 생성: 먼저 입력된 질의를 벡터 형태로 변환하는 임베딩을 생성합니다. 이 임베딩은 질의의 의미를 수치화하여 표현하는 과정입니다.
유사성 계산: 질의의 임베딩과 외부 지식 베이스에 있는 문서들의 임베딩을 비교하여 유사성을 계산합니다. 이를 통해 질의와 가장 관련성이 높은 문서를 찾습니다.
임베딩 알고리즘: 이 과정은 일반적으로 딥러닝 기반의 임베딩 알고리즘을 통해 수행됩니다. 예를 들어, Word2Vec, BERT, Sentence Transformers 등의 모델을 사용하여 질의와 문서의 의미를 벡터로 표현합니다.

2. Augmented 단계

질의 강화: Retrieve 단계에서 검색된 문서를 기반으로 입력된 질의를 강화합니다. 이 단계에서는 검색된 문서의 내용을 분석하여 질의에 추가적인 맥락과 정보를 제공합니다.
맥락 확장: 검색된 문서들을 이용해 원래의 질의에 추가 정보를 결합하여 더 풍부한 응답을 생성할 수 있도록 합니다. 예를 들어, 원래 질의에 대한 세부 정보나 배경 지식을 보강하는 역할을 합니다.

3. Generate 단계

텍스트 생성: Augmented 단계에서 강화된 질의 또는 검색된 문서를 기반으로 자연스러운 텍스트를 생성합니다. 이 과정은 일반적인 언어 모델의 텍스트 생성 방식과 유사하지만, 이전 단계에서 확보한 정보로 인해 더 정확하고 관련성 높은 응답을 생성할 수 있습니다.
응답 생성: 이 단계에서 최종적인 응답이 생성됩니다. 검색된 문서의 내용을 참고하여 사용자의 질의에 대해 자연스럽고 정확한 응답을 제공합니다. 예를 들어, 검색된 의학 논문을 바탕으로 건강 관련 질의에 대한 상세한 답변을 생성할 수 있습니다.

RAG의 작동 원리

RAG의 작동 원리는 5단계로 이루어져 있습니다.

1. 쿼리 임베딩 생성

사용자가 입력한 질의(query)를 임베딩 벡터로 변환하는 단계입니다. 이 과정은 질의를 고차원 벡터 공간에서 수치화하여 표현함으로써, 모델이 질의의 의미를 이해할 수 있게 합니다.
자연어로 작성된 질의는 임베딩 모델(예: BERT, Sentence Transformers 등)에 입력되어 벡터로 변환됩니다.
이 벡터는 질의의 의미를 수치적인 형식으로 나타냅니다.

2. 문서 검색

변환된 쿼리 임베딩을 사용하여 외부 지식 베이스(예: 위키피디아, 뉴스 아카이브, 문서 데이터베이스)에서 관련 문서를 검색합니다.
쿼리 임베딩과 외부 지식 베이스 내 문서들의 임베딩 사이의 유사도를 계산하여, 쿼리와 가장 관련성이 높은 문서들을 찾아냅니다.
일반적으로 코사인 유사도나 유클리디안 거리를 활용하여 문서와 질의 간의 유사성을 측정합니다.

3. 문서 임베딩 생성

검색된 각 문서를 임베딩 벡터로 변환하는 단계입니다. 이 단계에서는 검색된 문서의 내용을 벡터 형식으로 변환하여 다음 단계에서 활용할 수 있게 준비합니다.
검색된 문서들 역시 임베딩 모델을 통해 벡터화됩니다. 문서의 의미를 벡터로 표현하여 질의와 문서 간의 의미적인 결합이 가능해집니다.

4. 문서-쿼리 결합

검색된 문서의 임베딩과 쿼리 임베딩을 결합하여 텍스트 생성 모델의 입력으로 사용합니다.
이 결합은 RAG의 핵심 단계로, 질의와 관련 문서의 내용을 통합하여 풍부한 맥락을 형성합니다.
쿼리 임베딩과 문서 임베딩을 함께 사용하여, 모델이 질의와 문서 모두의 정보를 활용해 텍스트를 생성할 수 있게 합니다.
예를 들어, 임베딩 벡터들을 연결(concatenate)하거나 특정 연산을 통해 결합합니다.

5. 텍스트 생성

결합된 임베딩을 입력으로 받아 디코더(텍스트 생성 모델)가 새로운 텍스트를 생성합니다.
이 단계에서 최종적으로 사용자에게 제공할 답변이나 정보를 생성합니다.
결합된 임베딩은 디코더 모델(예: GPT, T5 등)에 입력되어 자연스러운 언어로 텍스트가 생성됩니다.
디코더는 이 임베딩을 바탕으로 새로운 응답을 생성하며, 검색된 문서와 질의를 기반으로 한 응답을 생성하게 됩니다.

RAG의 장점, 단점

RAG의 장점

풍부하고 정확한 정보 제공: RAG는 외부 지식 베이스를 활용하기 때문에, 최신 정보나 특정 주제에 대한 광범위하고 정확한 답변을 제공할 수 있습니다. 이는 단순히 내부적으로만 학습된 지식을 활용하는 모델보다 더 신뢰성 있는 응답을 가능하게 합니다.
다양한 데이터 소스 통합: RAG는 여러 종류의 데이터 소스를 결합하여 응답을 생성할 수 있습니다. 예를 들어, 뉴스 기사, 공식 발표 자료, 과학 논문, 웹사이트 등을 활용하여 광범위한 지식을 포함할 수 있습니다.
정보가 풍부한 응답 생성: 단순 생성 모델과 달리, RAG는 검색된 외부 정보를 활용하여 더 정확하고 구체적인 응답을 생성합니다. 이는 특히 사용자에게 심층적인 정보를 제공해야 하는 서비스에서 유용합니다.
보안 및 프라이버시 이점: RAG는 내부 LLM 모델과 외부 지식 베이스를 결합하여 구성할 수 있어, 완전히 외부 데이터에만 의존하지 않아도 됩니다. 이로써 사용자 데이터의 보안과 프라이버시를 더 효과적으로 보호할 수 있습니다.
효율적인 특화 도메인 대응: 특정 분야나 도메인에 특화된 정보를 제공할 때, RAG는 파인튜닝보다 더 효율적으로 대응할 수 있습니다. 예를 들어, 의료, 법률, 기술 등 전문 지식을 요구하는 영역에서 더욱 유용하게 활용될 수 있습니다.

RAG의 단점

복잡한 구조: 검색과 생성을 결합하는 과정이 복잡하기 때문에, 모델을 학습하고 튜닝하는 과정이 어렵고 시간이 많이 소요될 수 있습니다. 특히 임베딩 생성, 문서 검색, 텍스트 생성 등 다양한 단계를 효율적으로 통합하는 것이 까다롭습니다.
높은 연산 자원 필요: RAG는 여러 단계의 연산을 수행하므로, 임베딩 생성, 문서 검색, 텍스트 생성 등 모든 과정에서 높은 연산 자원을 요구합니다. 이는 대규모 데이터셋이나 실시간 응답을 처리할 때 시스템 부담을 가중시킬 수 있습니다.
외부 지식 베이스에 대한 의존성: RAG는 외부 지식 베이스의 품질과 최신성에 크게 의존합니다. 만약 사용되는 외부 지식 베이스가 오래되었거나 신뢰할 수 없는 정보로 구성되어 있다면, 결과의 정확성에 부정적인 영향을 미칠 수 있습니다.

RAG Example

1. 질의 응답 시스템 (Question Answering)

사용자가 "마지막 올림픽 100m 달리기 금메달리스트는 누구인가?"라고 질문하면, RAG 모델은 최신 뉴스 기사나 공식 스포츠 기록을 검색하여 정확한 답변을 제공합니다.
최신 올림픽 기록을 검색하고, 해당 경기에 대한 공식 결과를 찾아 "마지막 올림픽 100m 달리기 금메달리스트는 [선수 이름]입니다"라는 식으로 정확한 정보를 제공합니다.

2. 교육 도우미 챗봇

학생이 "광합성의 과정은 어떻게 이루어지나요?"라고 질문하면, 챗봇은 최신 생물학 교과서와 교육 자료를 검색하여 광합성의 과정을 단계별로 설명합니다.
챗봇은 외부 지식 베이스에서 광합성과 관련된 교육 자료를 검색하여, 학생이 이해하기 쉽게 "광합성은 식물이 빛 에너지를 이용해 물과 이산화탄소로부터 산소와 포도당을 생성하는 과정입니다..."와 같은 상세한 설명을 제공합니다.

3. 여행 추천 시스템

사용자가 "이번 여름 휴가에 갈 만한 해변을 추천해줘"라고 요청하면, RAG 모델은 최신 여행 블로그, 가이드, 날씨 정보 등을 검색하여 사용자가 선호할 만한 해변 목록을 제공합니다.
최신 여행 정보를 검색하여 해변의 인기, 날씨, 편의시설 등을 고려해 "이번 여름에 가볼 만한 해변으로는 발리의 쿠타 비치, 하와이의 와이키키 비치, 그리고 스페인의 코스타 브라바를 추천합니다..."와 같은 맞춤형 추천을 제공합니다.

4. 기술 지원 챗봇

사용자가 "컴퓨터가 자꾸 재부팅되는데 어떻게 해결할 수 있나요?"라고 질문하면, 챗봇은 최신 기술 문서, 포럼 게시글, FAQ를 검색하여 가장 일반적인 해결 방법을 제공합니다.
챗봇은 검색된 기술 지원 문서를 바탕으로 "컴퓨터가 자꾸 재부팅되는 문제는 주로 과열, 드라이버 충돌, 또는 하드웨어 문제 때문일 수 있습니다. 먼저, CPU 팬을 청소해 보시고, 드라이버를 업데이트하거나 고장 난 하드웨어를 점검해보세요..."와 같이 문제 해결 방법을 제시합니다.

5. 영화 추천 서비스

사용자가 "요즘 인기 있는 스릴러 영화 추천해줘"라고 요청하면, RAG 모델은 영화 리뷰 사이트, 박스오피스 순위, 영화 평론을 검색하여 최신 인기 스릴러 영화를 추천합니다.
검색된 데이터를 바탕으로 "최근에 개봉한 스릴러 영화로는 '테넷', '노 타임 투 다이', '언차티드' 등이 있습니다. 특히 '테넷'은 화려한 액션과 복잡한 스토리로 많은 호평을 받고 있습니다..."와 같은 정보를 제공합니다.

6. 비즈니스 인텔리전스

기업 담당자가 "최근 우리 산업 분야의 트렌드가 무엇인가?"라고 질문하면, RAG 모델은 최신 비즈니스 뉴스, 연구 보고서, 산업 분석 자료를 검색하여 현재의 산업 트렌드를 요약합니다.
RAG는 산업 분석 보고서와 뉴스를 통해 "최근 당신의 산업 분야에서는 디지털 전환과 AI 도입이 주요 트렌드로 부상하고 있으며, 고객 경험 향상을 위한 맞춤형 서비스가 각광받고 있습니다..."와 같은 인사이트를 제공합니다.

RAG 직접 구현을 위한 요소

RAG를 직접 구현하기 위한 주요 구성 요소에 데하여 설명해보겠습니다.

1. 임베딩 (Embedding)

임베딩은 텍스트를 벡터화하는 과정으로, RAG 시스템의 핵심입니다. 주로 두 가지 방법을 사용합니다.

TF-IDF: 고전적인 방법으로, 단어의 빈도와 역문서 빈도를 사용하여 텍스트를 벡터화합니다. 단순하지만 특정 상황에서 효과적입니다.
임베딩 모델: Word2Vec, GloVe, BERT, Sentence Transformers와 같은 모델을 사용하여 더 정교한 벡터 표현을 생성합니다. 이러한 모델은 단어의 의미와 문맥을 벡터에 반영하여 높은 수준의 표현력을 제공합니다.

2. 정보 저장 및 검색

텍스트 임베딩을 저장하고 검색하는 데 사용할 수 있는 데이터베이스 시스템입니다.

RDBMS: 관계형 데이터베이스로, 작은 규모의 데이터셋에 대한 간단한 검색에 유용합니다.
NoSQL: MongoDB, Cassandra 등의 비관계형 데이터베이스로, 유연한 스키마를 제공하며 대량의 비정형 데이터를 처리하는 데 적합합니다.
VectorDB: Milvus, Pinecone, FAISS와 같은 벡터 데이터베이스는 임베딩 벡터를 효율적으로 저장하고 고속의 유사도 검색을 지원합니다. RAG에서 대규모 벡터 검색 작업을 수행할 때 유용합니다.

3. LLM (Large Language Models)

언어 모델은 검색된 정보와 사용자 질의에 기반하여 텍스트를 생성하는 데 사용됩니다.

Llama: Meta AI에서 개발한 대규모 언어 모델로, 특정 작업을 위해 미세 조정(fine-tuning)할 수 있습니다.
ChatGPT: OpenAI에서 개발한 언어 모델로, 대화형 응답 생성에 특화되어 있습니다.
Phi: 특정한 작업 또는 도메인에 최적화된 언어 모델로 사용될 수 있습니다.

RAG Framework

RAG을 구현하기 위한 Framework에 데하여 설명해 보겠습니다.

Langchain

LangChain은 대규모 언어 모델(LLM)을 활용하여 검색 및 생성을 독립적인 모듈로 구현할 수 있는 구조를 제공하는 프레임워크입니다.

이를 통해 다양한 데이터 소스와 검색 방법을 유연하게 통합하고, 효율적인 언어 처리 파이프라인을 구축할 수 있습니다.

주요 특징

모듈화된 구조: LangChain은 검색과 생성을 독립적인 모듈로 분리하여, 각 구성 요소를 독립적으로 개발, 테스트, 배포할 수 있는 구조를 제공합니다. 이는 시스템의 유연성과 확장성을 크게 향상시킵니다.
다양한 데이터 소스 통합: 외부 데이터베이스, 웹사이트, 문서 저장소 등 다양한 데이터 소스와 검색 방법을 쉽게 통합할 수 있는 기능을 제공합니다.
파이프라인 유연성: 데이터를 처리하고 변환하는 파이프라인을 유연하게 구성할 수 있어, 사용자의 특정 요구 사항에 맞게 데이터를 전처리하고, 검색 및 생성 단계를 조정할 수 있습니다.
통합 환경 제공: 언어 모델의 학습, 평가, 배포를 위한 도구와 기능을 포함하여, 전체적인 워크플로우를 통합하고 관리할 수 있는 환경을 제공합니다.

구조

데이터 소스:
- 외부 데이터베이스, 웹사이트, 문서 저장소 등 다양한 데이터 소스에서 정보를 검색하는 역할을 담당합니다.
- 데이터 소스의 종류에 따라 다른 검색 전략을 적용할 수 있습니다.
검색 모듈:
- TF-IDF, BM25 등의 검색 알고리즘을 사용하여 입력 쿼리와 관련된 문서를 검색합니다.
- 쿼리를 임베딩 벡터로 변환하고, 해당 벡터를 사용해 데이터 소스에서 가장 관련성이 높은 문서를 찾습니다.
- 이 모듈은 검색된 문서들의 유사성을 계산하고, 적합한 정보를 추출하는 데 초점을 둡니다.
생성 모듈:
- 언어 모델(LLM)을 사용하여 검색된 문서를 바탕으로 자연스러운 텍스트를 생성합니다.
- 이 모듈은 LLM의 능력을 활용하여 사용자의 쿼리에 대해 정확하고 풍부한 응답을 생성합니다.
- 응답 생성은 단순한 문서 검색의 결과를 전달하는 것뿐 아니라, 사용자의 맥락에 맞게 문장을 재구성하여 자연스러운 대화 흐름을 만듭니다.
파이프라인 관리:
- 전체 데이터 처리 흐름을 관리하는 기능을 제공합니다.
- 데이터 전처리, 검색, 생성의 각 단계를 조정하고 최적화하여 최종 응답을 생성합니다.
- 이 관리 모듈은 작업의 순서를 정하고, 각 단계의 결과를 다음 단계로 전달하는 역할을 수행합니다.

LlamaIndex

LlamaIndex는 대규모 언어 모델을 기반으로 한 검색 및 생성 작업을 지원하는 프레임워크입니다.

대규모 데이터셋을 효율적으로 인덱싱하고, 고성능 검색 기능을 제공하는 데 중점을 두고 있습니다. 이를 통해 다양한 검색 알고리즘과 언어 모델을 쉽게 통합할 수 있으며, 문서와 쿼리의 임베딩을 생성하고 유사성을 계산하여 관련 문서를 검색하는 기능을 지원합니다.

특징 및 기능

대규모 데이터 인덱싱: 대규모 데이터셋을 효율적으로 인덱싱하여 빠른 검색을 지원합니다. 이 과정에서 데이터의 구조와 내용을 분석하여 효율적인 검색이 가능하도록 합니다.
고성능 검색 기능: 사용자가 입력한 쿼리를 임베딩 벡터로 변환하고, 인덱싱된 문서의 임베딩과 비교하여 유사도를 계산함으로써 가장 관련성 높은 문서를 검색합니다.
다양한 검색 알고리즘 및 언어 모델 통합: 다양한 검색 알고리즘과 언어 모델을 쉽게 통합할 수 있어, 응용 분야에 따라 최적화된 검색 및 응답 생성이 가능합니다.
파이프라인 관리: 인덱싱, 검색, 생성 과정을 통합하여 효율적인 작업 흐름을 관리할 수 있습니다.

구조

데이터 인덱싱:
- 대규모 데이터셋을 인덱싱하여 빠르고 효율적인 검색을 지원합니다.
- 데이터의 구조와 내용을 분석하여 인덱스를 구축함으로써 검색의 정확성과 속도를 높입니다.
- 예를 들어, 텍스트 문서, 웹 페이지, 데이터베이스 등 다양한 형태의 데이터를 인덱싱할 수 있습니다.
쿼리 처리 및 검색:
- 사용자가 입력한 쿼리를 임베딩 벡터로 변환하고, 인덱싱된 문서들의 임베딩 벡터와 비교하여 유사도를 계산합니다.
- 유사도 계산을 통해 쿼리와 가장 관련성 높은 문서를 검색하고, 이를 사용자의 질의에 대한 응답 생성의 기반으로 사용합니다.
- TF-IDF, BM25 등의 전통적인 검색 알고리즘뿐만 아니라, 신경망 기반 임베딩을 활용한 검색도 지원합니다.
텍스트 생성:
- 검색된 문서를 바탕으로, LLM을 활용하여 자연스러운 응답 텍스트를 생성하는 데 필요한 입력을 준비합니다.
- 이 단계에서는 검색된 문서의 핵심 내용을 추출하고, 이를 언어 모델에 전달하여 사용자의 질의에 대한 응답을 생성합니다.
파이프라인 관리:
- 인덱싱, 검색, 생성 등 모든 작업을 통합하여 전체적인 작업 흐름을 효율적으로 관리합니다.
- 파이프라인을 통해 데이터 처리의 각 단계를 조정하고, 결과를 최적화하여 사용자의 요구에 빠르게 대응할 수 있습니다.

Langchain vs LlamaIndex

Langchain

모듈화된 구성 요소: 검색과 생성 단계를 독립적으로 구현하고 조합할 수 있는 구조를 제공합니다. 이를 통해 각 구성 요소를 독립적으로 개발, 테스트, 배포할 수 있습니다.
확장성: 다양한 데이터 소스와 검색 방법을 쉽게 통합할 수 있습니다. 외부 데이터베이스, 웹사이트, 문서 저장소 등 다양한 형태의 데이터를 손쉽게 사용할 수 있습니다.
유연한 파이프라인: 데이터를 처리하고 변환하는 파이프라인을 유연하게 구성할 수 있습니다. 사용자가 특정 요구 사항에 맞게 데이터 전처리, 검색 및 생성 단계를 조정할 수 있습니다.
다양한 언어 모델과 검색 기법: TF-IDF, BM25 등의 검색 알고리즘뿐만 아니라, 다양한 언어 모델을 활용하여 효율적이고 확장 가능한 자연어 처리 시스템을 구축할 수 있습니다.

LlamaIndex

효율적인 인덱싱: 대규모 데이터셋을 구조화된 형태로 인덱싱하여 빠른 검색을 지원합니다. 이로써 사용자는 대량의 데이터를 빠르게 검색하고 활용할 수 있습니다.
강력한 검색 기능: Dense Retrieval 기법을 사용하여 높은 정확도의 검색 결과를 제공합니다. 문서와 쿼리의 임베딩을 생성하고 유사성을 계산하여 관련 문서를 찾아냅니다.
통합된 생성 기능: 검색된 정보를 바탕으로 자연스러운 텍스트를 생성할 수 있습니다. 이로써 사용자는 더욱 풍부하고 정확한 응답을 받을 수 있습니다.
대규모 데이터 관리: 대규모 데이터셋의 인덱싱과 고성능 검색 기능에 중점을 두어 대용량 데이터 기반 응용 프로그램에 적합합니다.

Langchain은 모듈화와 확장성에 중점을 둔 프레임워크로, 다양한 데이터 소스와 검색 방법을 유연하게 통합할 수 있습니다.
검색 및 생성 파이프라인을 유연하게 구성하고 조정할 수 있기 때문에 다양한 응용 분야에 적합합니다.

LlamaIndex는 대규모 데이터셋을 효율적으로 인덱싱하고, Dense Retrieval 기법을 통해 높은 정확도의 검색을 제공하는 데 중점을 둡니다. 특히 대용량 데이터 기반의 고성능 검색 및 자연어 생성을 필요로 하는 응용 프로그램에 적합합니다.

SELF-RAG

SELF-RAG는 RAG 시스템의 생성 품질과 사실성을 개선하기 위한 프레임워크입니다.

기존 RAG 시스템이 정보 검색과 텍스트 생성의 조합을 통해 응답을 생성하는 데 중점을 둔 반면, SELF-RAG는 생성 과정에서의 자체 평가와 반성을 도입하여 더 높은 정확도와 사실성을 추구합니다.

주요 특징

Reflection 토큰 사용: SELF-RAG는 reflection 토큰을 활용하여 생성된 내용을 자체적으로 반성하고 평가합니다. 이 토큰은 모델이 응답을 생성하는 동안 스스로 생성 결과를 평가하고, 필요하다면 다시 검색하는 프로세스를 실행합니다.
검색 빈도 조정: Reflection 토큰을 통해 모델은 언제 추가적인 검색이 필요한지 판단하고, 검색 빈도를 조정할 수 있습니다. 이를 통해 더 정확하고 사실에 기반한 응답을 생성할 수 있습니다.
사용자 선호도 학습: SELF-RAG는 Reflection 과정을 통해 사용자 선호도에 맞게 모델의 행동을 학습합니다. 이는 생성 결과의 일관성과 품질을 향상시키며, 사용자에게 더욱 만족스러운 응답을 제공할 수 있게 합니다.

Adaptive RAG

Adaptive-RAG는 쿼리의 복잡도에 따라 최적의 검색 및 생성 전략을 동적으로 선택하는 프레임워크입니다.

다양한 난이도의 쿼리에 대응하기 위해 RAG 시스템의 효율성과 정확성을 균형 있게 향상시키는 것을 목표로 합니다.

주요 특징

쿼리 복잡도 인식: Adaptive-RAG는 입력된 쿼리의 복잡도를 평가하고, 그에 따라 검색 및 생성 전략을 적응적으로 선택합니다. 예를 들어, 단순한 쿼리에는 빠른 검색 전략을 사용하고, 복잡한 쿼리에는 심층적인 검색 및 생성 전략을 적용합니다.
동적 전략 선택: 쿼리의 복잡도에 따라 다양한 검색 및 생성 방법을 동적으로 적용하여 효율성과 정확성을 조절합니다. 이는 시스템이 단순한 질문과 복잡한 질문에 모두 적절히 대응할 수 있도록 합니다.
효율성 및 정확성 균형: Adaptive-RAG는 쿼리의 난이도에 따라 리소스 사용을 최적화하고, 검색과 생성을 조정하여 전체적인 응답 품질을 향상시킵니다. 이로써 더 적은 리소스로도 높은 정확도의 응답을 제공할 수 있습니다.

RAG Example Code

!pip install langchain
!pip install transformers
!pip install sentence-transformers
!pip install faiss-cpu

import torch
from transformers import DPRQuestionEncoderTokenizer, DPRQuestionEncoder, DPRContextEncoderTokenizer, DPRContextEncoder
from sentence_transformers import SentenceTransformer, util
import faiss
import numpy as np
from transformers import GPT2Tokenizer, GPT2LMHeadModel

# 간단한 문서 데이터 준비
documents = [
    "Paris is the capital of France.",
    "Berlin is the capital of Germany.",
    "Madrid is the capital of Spain.",
    "Rome is the capital of Italy.",
    "London is the capital of the United Kingdom."
    "Munich is the capital of the Germany football"
]

# 문서 인코더와 토크나이저 준비
context_tokenizer = DPRContextEncoderTokenizer.from_pretrained("facebook/dpr-ctx_encoder-single-nq-base")
context_encoder = DPRContextEncoder.from_pretrained("facebook/dpr-ctx_encoder-single-nq-base")

# 문서를 임베딩으로 변환
document_embeddings = []
for doc in documents:
    inputs = context_tokenizer(doc, return_tensors="pt")
    outputs = context_encoder(**inputs)
    document_embeddings.append(outputs.pooler_output.detach().numpy())

# 리스트 형태의 임베딩을 하나의 numpy 배열로 변환
document_embeddings = np.vstack(document_embeddings)

# FAISS 인덱스 생성 및 임베딩 추가
index = faiss.IndexFlatL2(document_embeddings.shape[1])
index.add(document_embeddings)

FAISS (Facebook AI Similarity Search) is a library that allows developers to quickly search for embeddings of multimedia documents that are similar to each other. It solves limitations of traditional query search engines that are optimized for hash-based searches, and provides more scalable similarity search functions.

# 질문 인코더와 토크나이저 설정
question_tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
question_encoder = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base")

# 생성 모델과 토크나이저 설정
generation_tokenizer = GPT2Tokenizer.from_pretrained("gpt2-medium")
generation_model = GPT2LMHeadModel.from_pretrained("gpt2-medium")

print(generation_model)

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50257, 1024)
    (wpe): Embedding(1024, 1024)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-23): 24 x GPT2Block(
        (ln_1): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2SdpaAttention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D()
          (c_proj): Conv1D()
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=1024, out_features=50257, bias=False)
)

class RAGModel:
    def __init__(self, question_encoder, context_encoder, generation_model, index, tokenizer):
        # RAG 모델 클래스의 초기화 함수
        # question_encoder: 질문을 인코딩하여 임베딩을 생성하는 모델
        # context_encoder: 문서를 인코딩하여 임베딩을 생성하는 모델
        # generation_model: 질문과 검색된 문서를 기반으로 답변을 생성하는 모델
        # index: 문서의 임베딩을 저장하고 검색하는 데 사용하는 인덱스 (FAISS와 같은 라이브러리 사용)
        # tokenizer: 텍스트를 토큰화하고 인코딩하는 데 사용되는 토크나이저
        self.question_encoder = question_encoder
        self.context_encoder = context_encoder
        self.generation_model = generation_model
        self.index = index
        self.tokenizer = tokenizer

    def retrieve(self, question):
        # 주어진 질문을 기반으로 가장 관련 있는 문서를 검색하는 함수
        
        # 1. 질문을 토큰화하고 인코딩하여 모델에 입력
        question_inputs = question_tokenizer(question, return_tensors="pt")
        
        # 2. 질문 인코더를 사용하여 질문을 임베딩 벡터로 변환
        question_outputs = self.question_encoder(**question_inputs)
        
        # 3. 임베딩 결과의 pooler_output을 사용하여 질문의 벡터 표현을 얻음
        question_embedding = question_outputs.pooler_output.detach().numpy()

        # 4. FAISS 인덱스를 사용하여 질문 벡터와 가장 가까운 문서 검색
        # D: 거리 배열, I: 인덱스 배열
        # k=1: 가장 가까운 1개의 문서를 검색
        D, I = self.index.search(question_embedding, k=1)
        
        # 5. 검색된 문서 반환 (가장 가까운 문서의 인덱스를 사용하여 문서 리스트에서 문서 가져오기)
        return documents[I[0][0]]

    def generate(self, question, retrieved_doc):
        # 질문과 검색된 문서를 기반으로 답변을 생성하는 함수
        
        # 1. 질문과 검색된 문서를 결합하여 모델의 입력으로 사용
        input_text = question + " " + retrieved_doc
        
        # 2. 결합된 텍스트를 토큰화하여 모델의 입력으로 변환
        inputs = self.tokenizer.encode(input_text, return_tensors="pt")

        # 3. 생성 모델을 사용하여 답변 생성
        # max_length=50: 생성된 텍스트의 최대 길이 설정
        outputs = self.generation_model.generate(inputs, max_length=50)
        
        # 4. 생성된 답변을 디코딩하여 텍스트로 변환
        return self.tokenizer.decode(outputs[0], skip_special_tokens=True)

    def run(self, question):
        # 주어진 질문에 대해 RAG 모델을 실행하여 답변을 생성하는 함수
        
        # 1. 질문을 기반으로 가장 관련 있는 문서 검색
        retrieved_doc = self.retrieve(question)
        print(f"Retrieved Document: {retrieved_doc}")
        
        # 2. 검색된 문서와 질문을 기반으로 답변 생성
        return self.generate(question, retrieved_doc)

# RAG 모델 인스턴스 생성
# question_encoder, context_encoder, generation_model, index, generation_tokenizer를 사용하여 RAGModel 클래스의 인스턴스 생성
rag_model = RAGModel(question_encoder, context_encoder, generation_model, index, generation_tokenizer)

# RAG 모델을 테스트하기 위한 함수
def test_rag_model(question):
    # RAG 모델을 실행하여 주어진 질문에 대한 답변을 생성
    answer = rag_model.run(question)
    
    # 질문과 답변을 출력하여 결과 확인
    print(f"Question: {question}")
    print(f"Answer: {answer}")

# 검색 단계를 거치지 않고 직접 답변을 생성하는 함수
def generate_pure_answer(question):
    # 1. 주어진 질문을 토큰화하여 모델 입력으로 변환
    inputs = generation_tokenizer.encode(question, return_tensors="pt")
    
    # 2. 생성 모델을 사용하여 질문에 대한 답변을 생성
    # max_length=50: 생성된 텍스트의 최대 길이 설정
    outputs = generation_model.generate(inputs, max_length=50)
    
    # 3. 생성된 답변을 디코딩하여 텍스트로 변환
    return generation_tokenizer.decode(outputs[0], skip_special_tokens=True)

# 예제 질문
question = "What is the capital of the Germant Football?"
test_rag_model(question)

# 순수 생성 모델 테스트
pure_answer = generate_pure_answer(question)
print("Pure Generation Answer:", pure_answer)

저작자표시 비영리 동일조건 (새창열림)

'🗣️ Large Language Model (LLM)' 카테고리의 다른 글

[LLM] Parameter-Efficient Transfer Learning for NLP 리뷰 (0)	2024.11.18
[LLM] Training language models to follow instructions with human feedback (Instruct GPT / RLHF) Review (0)	2024.10.30
[LLM] Improving Language Understanding by Generative Pre-Training (GPT-1 논문 Review) (0)	2024.10.25
[LLM] Prompt Engineering (프롬포트 엔지니어링) (0)	2024.09.14
[LLM] What is Large Language Model (LLM)? (0)	2024.09.11

SUBSCRIBE

Notice

Retrieve Augmented Generation (RAG)

RAG Architecture

RAG의 주요 구조

1. Retrieve 단계

2. Augmented 단계

3. Generate 단계

RAG의 작동 원리

1. 쿼리 임베딩 생성

2. 문서 검색

3. 문서 임베딩 생성

4. 문서-쿼리 결합

5. 텍스트 생성

RAG의 장점, 단점

RAG의 장점

RAG의 단점

RAG Example

1. 질의 응답 시스템 (Question Answering)

2. 교육 도우미 챗봇

3. 여행 추천 시스템

4. 기술 지원 챗봇

5. 영화 추천 서비스

6. 비즈니스 인텔리전스

RAG 직접 구현을 위한 요소

1. 임베딩 (Embedding)

2. 정보 저장 및 검색

3. LLM (Large Language Models)

RAG Framework

Langchain

주요 특징

구조

LlamaIndex

특징 및 기능

구조

Langchain vs LlamaIndex

Langchain

LlamaIndex

SELF-RAG

주요 특징

Adaptive RAG

주요 특징

RAG Example Code

'🗣️ Large Language Model (LLM)' 카테고리의 다른 글

티스토리툴바