Benchmarks
Egna prestandatester av LLM:er, databaser och hosting - körda så att de går att reproducera och med metoden beskriven innan resultaten. Jag publicerar inga siffror förrän de är riktigt uppmätta; det här är planen och metodiken så länge. Tills mätningarna ligger uppe är jämförelserna det närmaste strukturerade underlaget.
Så kommer benchmarkerna göras
Reproducerbar metod
Varje test får dokumenterad hårdvara, versioner, datamängd och körscript - så att du kan göra om det och få samma resultat. Ingen mätning utan att uppställningen står utskriven.
Läs mer Data idagJämförelser
Det närmaste strukturerade underlaget idag: kriteriebaserade jämförelser av verktyg och plattformar. Här hamnar benchmark-resultaten när de finns.
Läs mer TjänstDataplattform
Databas- och pipeline-tester hör hemma i det här tjänsteområdet - query-prestanda och kostnad per körning är det jag vill mäta.
Läs mer TjänstAI Engineering
LLM-benchmarkerna kopplar hit: latens, kostnad och kvalitet för olika modeller i en faktisk produktionsuppställning.
Läs merSättet jag mäter på
Det finns gott om benchmarks som publiceras av leverantörer med ett intresse av resultatet. De jag gör här utgår från raka frågor: vad kostar ett visst API-anrop i produktion med en given lastprofil? Hur lång tid tar en specifik databasfråga med 10 miljoner rader? Varje test dokumenteras med hårdvara, versioner, datamängd och körscript – så att du kan reproducera det och få samma svar. Utan reproducerbar metod är en siffra bara en åsikt.
Resultaten publiceras med rådata, inte bara sammanfattningar. Det gör att du kan dra egna slutsatser, inte bara acceptera mina. Jag markerar också tydligt när en mätning är preliminär och när den är granskad – så att du själv kan avgöra hur mycket du vill lita på siffran.
Vad som mäts först
Ordningen styrs av praktisk nytta i pågående uppdrag. De första testerna kommer att kretsa kring LLM-latens och kostnad per anrop för olika modeller i en faktisk produktionsuppställning – inte körda i en notebook på en utvecklares maskin. Därefter databasfrågeprestanda för vanliga mönster i molnet, och hosting-alternativ för typiska svenska SaaS-belastningar. Har du en särskild fråga du vill se besvarad med data? Hör av dig – bra benchmarks börjar i någon annans verkliga problem.
Vill du veta när första mätningen publiceras?
Jag aviserar nya benchmarks via nyhetsbrevet - med metod, rådata och allt som krävs för att granska dem. Lågfrekvent, inga reklamutskick.
Prenumerera