RAG vs Fine-tuning vs Prompt Engineering - när ska du välja vad?
Tre tekniker som ofta blandas ihop i AI-projekt. Den här artikeln klargör vad de faktiskt är, vad de kostar och i vilka situationer var och en är rätt val - utan ML-hype.
Tre tekniker som ofta blandas ihop i AI-projekt. Den här artikeln klargör vad de faktiskt är, vad de kostar och i vilka situationer var och en är rätt val - utan ML-hype.
De tre teknikerna löser olika problem:
I praktiken används de ofta tillsammans - fine-tuning för stil, RAG för innehåll, prompt engineering för exakt instruktion.
Att skriva bättre prompts är 80 % av effekten i 80 % av AI-projekt. Det är också det billigaste - inga modellkostnader, ingen träningsdata, ingen infrastruktur.
Använd när:
Begränsningar: Maximal kontextlängd, ingen tillgång till privat data, kostar per token vid varje anrop.
RAG hämtar relevant information från en kunskapsbas (typisk: ert SharePoint-bibliotek, en vektor-databas, ett dokumentarkiv) och stoppar in den i prompten innan modellen svarar. Det är vad de flesta menar med "AI som vet om vår egen data".
Använd när:
Komplexitet: Medium. Kräver embedding-modell, vektor-databas, chunking-strategi, retrieval-logik och ofta reranking för kvalitet. Räkna med 4-12 veckor för produktionsklar implementation.
Fine-tuning tränar om modellens beteende på er specifika data. Det är dyrt och fel verktyg för de flesta problem - men rätt verktyg för några specifika fall.
Använd när:
Använd inte för: Att lära modellen ny fakta - det gör RAG bättre och billigare.
Per produktionsklar implementation i ett mellanstort svenskt bolag, ungefärlig kostnad:
| Teknik | Setup | Löpande |
|---|---|---|
| Prompt eng. | 10 000 - 50 000 kr | API-kostnad / token |
| RAG | 150 000 - 500 000 kr | API + storage + retrieval |
| Fine-tuning | 200 000 - 800 000 kr | API + datapipeline + om-träning |
Ett moget AI-system kombinerar ofta alla tre: fine-tuned modell för svensk-affärs-ton, RAG för aktuell intern information, prompt engineering för specifik uppgift per anrop. Börja enkelt - prompt först, RAG vid behov, fine-tune sist.
Behöver svaret refera till er interna data?
→ RAG (eller långsiktigt: RAG + finetuning för ton)
Behöver modellen lära sig ett specifikt output-format?
→ Försök prompt först. Om det fortfarande inte funkar - fine-tune.
Vill ni minska kostnaden från GPT-4 till en mindre modell?
→ Fine-tune en mindre modell på GPT-4-output.
Är problemet 'modellen vet inte hur den ska svara'?
→ Prompt engineering. 80 % av fallen löses här.
Ska systemet hantera 100+ verktygsanrop i en kedja?
→ Det är agent-arkitektur - alla tre teknikerna är delar av lösningen.
Nästa steg