Understanding large language models
Build a Large Language Model: Chapter 1

This chapter covers
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(Large Language Models, LLM)์ ๊ธฐ๋ณธ ๊ฐ๋ ์ ๋ํ ๊ณ ์์ค ์ค๋ช
ChatGPT์ ๊ฐ์ LLM ๋ชจ๋ธ์ด ์ฌ์ฉํ๋ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ์ ๋ํ ํต์ฐฐ
LLM์ ๋ฐ๋ฐ๋ฅ ๋ถํฐ ๊ตฌํํ๊ธฐ ์ํ ๊ณํ
1.1. What is an LLM?
- ์ธ๊ฐ์ด ํ๋ ๊ฒ๊ณผ ์ ์ฌํ๊ฒ ํ ์คํธ๋ฅผ ์ดํด/์์ฑ/์๋ตํ๊ธฐ ์ํด ์ค๊ณ๋ ์ ๊ฒฝ๋ง
1.2. Applications of LLMs
- ํ ์คํธ ๋ค๋ฃจ๋ ๋ชจ๋ ์์ ์ ์๋ํํ๋ ๋ฐ ์ ์ฉํจ
1.3. Stages of building and using LLMs
LLM ๋๋ถ๋ถ PyTorch๋ก ๊ตฌํํ๋๊ฒ De facto
ํน์ ๋๋ฉ์ธ ์ฉ๋๋ก ์ค๊ณ๋ LLM์ ChatGPT์ ๊ฐ์ Foundation model๋ณด๋ค ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์
- Introducing BloombergGPT: ๊ธ์ต ๋ถ์ผ ํนํ
LLM ๋ง๋๋ ๊ณผ์
Pretraining (์ฌ์ ํ๋ จ)
๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฒ์ ํ๋ จํ๋ ์ด๊ธฐ ๋จ๊ณ
์ฌ์ ํ๋ จ ์ดํ Foundation Model์ด ๋จ, ์ฌ๊ธฐ์ ์ถ๊ฐ๋ก Fine-tuning ๊ฐ๋ฅ
Text Completion ๊ฐ๋ฅ
Input: โThe weather today is reallyโ
output: โnice and sunny.โ
Few-shot Capabilities ๋ณด์
English: Hello Korean: ์๋ ํ์ธ์ English: Thank you Korean: ๊ฐ์ฌํฉ๋๋ค English: Good morning Korean: [๋ชจ๋ธ์ด "์ข์ ์์นจ์ ๋๋ค" ์์ฑ]Foundation Model = Base Model (์ฌ์ ํ๋ จ๋ง ์๋ฃ๋ ์ํ)
- e.g. GPT-4 base, Kanana-1.5-8b-base
Foundation Model + Fine-tuning = Fine-tuned Model
- e.g. GPT-4
๊ทผ๋ฐ ๋ง์ผํ ๋๋ฌธ์ธ์ง GPT ๊ฐ์ ์ผ๋ฐ์ ์ธ ๋ชจ๋ธ๋ Foundation Model์ด๋ผ๊ณ ๋ถ๋ฅด๋ ๋ฏ
Fine-tuning (๋ฏธ์ธ ์กฐ์ ): LLM์ ๋ผ๋ฒจ์ด ์ง์ ๋ ๋ฐ์ดํฐ๋ก ์ถ๊ฐ ํ๋ จ์ํด
Fine-tuning ์ดํ RLHF๋ ๊ฐ๋ฅ (๊ฐํ ํ์ต)
์ธ๊ฐ์ด ๋งค๊ธด ์ ํธ๋ ์ ์๋ฅผ ๋ณด์์ผ๋ก ์ฌ์ฉํจ
๊ทผ๋ฐ ์ฌ๊ธฐ์ bias๊ฐ ๋์์ง๊ณ ์ฑ๋ฅ์ด ๋ ๋ฎ์์ง ์๋ ์์ ๋ฏ
GPT๋ ์ด๋ฌํ ๊ณผ์ ์์ ์ค๋ฆฌ์ ๊ธฐ์ค์ ์ค์ํ๋๋ก ์กฐ์ ๋จ
1.4. Introducing the transformer architecture
ํ๋ LLM์ โAttention Is All You Needโ์์ ์๊ฐ๋ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ์ ๊ธฐ๋ฐํ๋ ๊ฒ De facto
- ํด๋น ๋ ผ๋ฌธ์ ๊ธฐ์ ์ผ๋ก Attention์ ์ฐ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๋๋ถ๋ถ์ Self-Attention ๋ฐฉ์์ ์ฑํ
Transformer Architecture๋ ์ธ์ฝ๋, ๋์ฝ๋๋ผ๋ ๋ ๊ฐ์ง ์๋ธ๋ชจ๋๋ก ๊ตฌ์ฑ๋จ
๋ ๋ค Self-Attention mechanism์ ์ํด ์ฐ๊ฒฐ๋ ์ฌ๋ฌ ์ธต์ผ๋ก ๊ตฌ์ฑ
Self-Attention: ๋ฌธ์ฅ ๋ด์ ๊ฐ ๋จ์ด๊ฐ ๊ฐ์ ๋ฌธ์ฅ์ ๋ค๋ฅธ ๋ชจ๋ ๋จ์ด๋ค๊ณผ ์ผ๋ง๋ ๊ด๋ จ์ด ์๋์ง๋ฅผ ๊ณ์ฐ
Transformer Architecture ํ์ ๋ณํ (BERT, GPT)
BERT: ๋จ์ด ์์ธก ํนํ, GPT: ํ ์คํธ ์์ฑ ํนํ
๊ทผ๋ฐ ๊ฐ์๊ธฐ GPT๊ฐ ์์ธก๋ ์ ํจ !!
1.5. Utilizing large datasets
ํ๋ จ ๋ฐ์ดํฐ์ ์ ๊ท๋ชจ์ ๋ค์์ฑ์ด ์ผ๋ฐ์ ์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๊ฒ ํจ
ํ๋ จ ๋ฐ์ดํฐ์ ์ ์ด๋ป๊ฒ ๊ตฌ์ฑํ๋ ์ง ๊ถ๊ธํจ
Constitutional AI(CAI) ํ๋ จ์ผ๋ก ๊ทน๋จ์ bias๋ misinformation ๋ฑ์ ์ค์ผ ์ ์์
Self-Supervised Learning ํ์ต ๋ฐฉ์ ์ฌ์ฉ ์ ์ธ๊ฐ์ด ์ด๋ค ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅํ ์ง๋ง ๊ฒฐ์ ํ๋ฉด ๋จ
๊ทผ๋ฐ ๊ฒฐ๊ตญ ์ฌ๊ธฐ์ ์ธ๊ฐ์ด ๋ฐ์ดํฐ ์ ์ ํ๋ฉด ํธํฅ์ด ์์ ์ ๋ฐ์ ์์ง ์๋? ๊ทธ ์ ์, ๋ฌด์์ ๋ฌธ์ ๋ผ๊ณ ์ ์ํด์ผ ํ๋๊ฐ? ์ธ๊ฐ์ด ๋ฌด์์ ๋ฌธ์ ๋ผ๊ณ ์ ์ํ๋ ๊ณผ์ ์์๋ ํธํฅ์ด ์์ ์ ์์ง ์๋?
1.6. A closer look at the GPT architecture
GPT(Generative Pretrained Transformer)๋ ๋ค์ ๋จ์ด ์์ธก์ผ๋ก ์ฌ์ ํ๋ จ๋จ
๋ณธ์ง์ ์ผ๋ก, ์ธ์ฝ๋ ์์ด ๋์ฝ๋ ๋ถ๋ถ๋ง์ ์ฌ์ฉํจ
ํ ์คํธ๋ฅผ ํ ๋ฒ์ ํ ๋จ์ด์ฉ ์์ธกํ์ฌ ์์ฑํ๊ธฐ ๋๋ฌธ์, ์๋ ํ๊ท ๋ชจ๋ธ(auto-regressive model)๋ก ๊ฐ์ฃผ๋จ
์๋ ํ๊ท ๋ชจ๋ธ์ ์ด์ ์ถ๋ ฅ์ ๋ฏธ๋ ์์ธก์ ์ ๋ ฅ์ผ๋ก ํฌํจํจ
๊ฐ ์๋ก์ด ๋จ์ด๊ฐ ์ด์ ์ํ์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ํ๋์ด ๊ฒฐ๊ณผ ํ ์คํธ์ coherence์ ํฅ์์ํด
์ ๋ ฅ: "์ค๋ [MASK] ์ ๋ง ์ข๋ค" GPT (์๋ํ๊ท): "์ค๋" โ "๋ ์จ๊ฐ" ์์ธก (์์ฐจ์ ) BERT: "์ค๋ + ์ ๋ง + ์ข๋ค" โ "[MASK]" ์์ธก (์๋ฐฉํฅ)๊ทธ๋ผ ์ด์ ์ํ์ค๊ฐ ๊ธธ ์๋ก ๋ฉ๋ชจ๋ฆฌ, ํ ํฐ ๋น์ฉ ์ด์๊ฐ ์์ง ์๋?
์ปจํ ์คํธ ์๋์ฐ = ๋ชจ๋ธ์ด ํ ๋ฒ์ ๊ธฐ์ตํ ์ ์๋ ํ ํฐ ์
์ฌ๋ผ์ด๋ฉ ์๋์ฐ = ์ต๊ทผ N๊ฐ ํ ํฐ๋ง ๋ณด๊ธฐ
์ดํ ์ ํจ์จํ - Sparse attention, Linear attention ๋ฑ์ผ๋ก ๊ณ์ฐ๋ ์ค์ด๊ธฐ
๊ณ์ธต์ ์ฒ๋ฆฌ - ์ค์ํ ๋ถ๋ถ๋ง ์ ๋ณํด์ ์์ถ
๋ชจ๋ Transformer๋ attention์ ์ฌ์ฉํ๊ณ , attention์ด O(nยฒ) ๋ณต์ก๋๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ๋ฉ๋ชจ๋ฆฌ/๊ณ์ฐ ์ ์ฝ์ผ๋ก ์ธํ ์ปจํ ์คํธ ์๋์ฐ๊ฐ ํ์
Few-Shot ์ํ ๊ฐ๋ฅ
์ ๋ ผ๋ฌธ์์ Zero-Shot๋ณด๋ค One-Shot์ด ์ ํ๋ ์ฝ 5๋ฐฐ ๋์

1.7. Building a large language model
์ด์ ๋ถํฐ ์ฐ๋ฆฌ๋ GPT์ ๊ธฐ๋ณธ ์์ด๋์ด๋ฅผ ์ฒญ์ฌ์ง์ผ๋ก ์ผ์ ์ธ ๋จ๊ณ๋ฅผ ๋ค๋ฃฐ ๊ฒ
๊ธฐ๋ณธ์ ์ธ ์ ์ฒ๋ฆฌ ๋จ๊ณ
GPT ์ ์ฌ LLM ์ฝ๋ฉ, LLM ํ๊ฐ
์ง์์๋ต์ด๋ ํ ์คํธ ๋ถ๋ฅ์ ๊ฐ์ ์ง์๋ฅผ ๋ฐ๋ฅด๋๋ก Fine-tuning
Summary
ํ๋ LLM์ ๋ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ํ๋ จ
๋จผ์ , ๋ฌธ์ฅ ๋ด ๋ค์ ๋จ์ด ์์ธก์ "๋ผ๋ฒจ"๋ก ์ฌ์ฉํ์ฌ ๋ผ๋ฒจ์ด ์๋ ๋๊ท๋ชจ ํ ์คํธ ์ฝํผ์ค์์ ์ฌ์ ํ๋ จ
๊ทธ๋ฐ ๋ค์, ๋ ์ ์ ์์ ๋ผ๋ฒจ์ ๊ฐ์ง ์ง์ ๋ ๋ฐ์ดํฐ์ ์์ ์ง์๋ฅผ ๋ฐ๋ฅด๊ฑฐ๋ ๋ถ๋ฅ ์์ ์ ์ํํ๋๋ก ๋ฏธ์ธ ์กฐ์
LLM์ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ ๊ธฐ๋ฐ
ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ์ ํต์ฌ ์์ด๋์ด๋ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ผ๋ก, ์ด๋ LLM์ด ์ถ๋ ฅ์ ํ ๋จ์ด์ฉ ์์ฑํ ๋ ์ ์ฒด ์ ๋ ฅ ์ํ์ค์ ์ ํ์ ์ผ๋ก ์ ๊ทผํ ์ ์๊ฒ ํด์ค
๋ง์ถคํ ๋ฐ์ดํฐ์ ์์ ๋ฏธ์ธ ์กฐ์ ๋ LLM์ ํน์ ์์ ์์ ์ผ๋ฐ LLM๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์



