Hoppa till innehåll
Strukturerad data-extraktion

Strukturerad data-extraktion - webb, PDF och API som löpande datakälla

Lagligt insamlade och strukturerade data från publika källor. Bolagsregister, prisuppgifter, dokumentbibliotek, kataloger och API:er - som kontinuerlig pipeline, inte som engångsdump.

Legal-firstpublika källor, robots.txt respekterad
2,5 M+ posterbyggd skala
Strukturerad outputBigQuery, CSV, API
Övervakning ingårlarm vid avvikelse
01

Känner du igen det här?

De organisationer vi arbetar med brottas oftast med minst ett av dessa.

01

Datakällor som måste klippas och klistras

Värdefull data ligger i en webbportal eller PDF-bibliotek utan API. Manuell hantering är tidsmördande och felbenägen.

02

API:er som inte täcker hela behovet

Den officiella källans API är ofullständigt eller dyrt. Att kombinera flera källor kräver pipeline-arbete.

03

Tidigare scraping-projekt fallerat

Ett internt PoC-skript bygger upp och kraschar. Saknar retry, övervakning och ingen vågar lita på datan.

04

Oklart vad som är lagligt

GDPR, upphovsrätt, terms of service - när får man och får man inte. Behöver tydlig vägledning innan jag bygger.

02

Vad vi levererar

Selektivt urval av uppdrag - där senior teknisk kompetens gör störst skillnad.

01

Källanalys & legal-bedömning

Identifierar och bedömer datakällor: licensvillkor, robots.txt, GDPR-implikationer, alternativa API:er. Skriftlig rekommendation.

02

Webb-scraping

Robust scraping mot publika webbplatser med rotation, rate-limiting och respekt för terms of service. Headless browsers när krävs.

03

PDF-extraktion

Strukturerad data ur PDF-dokument med Claude Vision eller traditionell OCR + parsing. Tabeller, formulär, scanned text.

04

Pipeline & schemaläggning

Cloud Run + scheduled jobs, retries, dead-letter-queues, idempotens. Datakällan blir en infrastrukturkomponent, inte ett skript.

05

Datamodellering & storage

Output strukturerat i BigQuery, Postgres eller export-API. Versionering, audit-logg, dimensionsmodell där det passar.

06

Övervakning & compliance

Larm vid schema-ändringar i källan, kostnadsövervakning, audit trail för efterlevnadsändamål.

03

Metod

Tydlig process från första samtalet till levererat resultat.

01

Förstå

Vilka källor, vilka data, vilken frekvens - och vilka legala randvillkor som gäller.

02

Granska källor

Källanalys, legal-bedömning, arkitekturförslag och kostnadsuppskattning.

03

Bygg pipeline

Produktionsklar pipeline med övervakning, retries och dokumentation.

04

Förvalta

Källor ändrar struktur över tid - förvaltning som retainer eller överlämning till ert team.

04

Uppdragsformer

Transparenta upplägg utan dolda kostnader. Alla priser exkl. moms.

01

Discovery

20 000 - 35 000kr (fast pris)

Källanalys och legal-bedömning med arkitekturförslag.

  • Källinventering
  • Legal-genomgång
  • Arkitekturförslag
  • Kostnadsuppskattning
02Vanligast

Pipeline-bygge

Offert(fast pris möjligt)

End-to-end pipeline för en eller flera källor.

  • Detaljerad projektplan
  • Produktionsklar pipeline
  • Övervakning + larm
  • Output till valfri storage
  • 30 dagars support efter leverans
  • Allt: kod, infra, dokumentation
03

Förvaltning (retainer)

20 000 - 60 000kr/mån

Löpande förvaltning, källanpassningar och nya källor stegvis.

  • Dedikerad tid varje vecka
  • Prioriterad kanal vid fel
  • Månatlig genomgång
  • Flexibel uppsägning
05

Vanliga frågor

Svar på det jag oftast får höra.

Nästa steg

Diskutera ert projekt

Har ni en ambitiös idé eller ett tekniskt vägval där det är värt att tänka rätt från början? Hör av er - förutsättningslöst.

Ta kontakt