Sådan validerer vi CSV-filer

En teknisk oversigt over vores CSV-valideringsmotor og de tjek vi udfører på hver fil.

Tegnkodningsdetektion

Vi analyserer bytemønstrene i din fil for at detektere tegnkodningen. Almindelige kodninger som UTF-8, UTF-8 med BOM, Latin-1 (ISO-8859-1) og Windows-1252 detekteres alle. Hvis en BOM (Byte Order Mark) er til stede, identificeres og rapporteres den. Ikke-UTF-8-filer konverteres før analyse.

Automatisk skilletegnsdetektion

Vores motor sampler de første rækker i din fil og tæller forekomsterne af almindelige skilletegn: komma (,), semikolon (;), tabulator og pipe (|). Skilletegnet med den mest konsistente forekomst vælges. Dette håndterer regionale forskelle, hvor semikoloner er almindelige i europæiske CSV-eksporter.

Strukturvalidering

Vi tjekker at hver række har det samme antal kolonner som overskriftsrækken. Rækker med manglende eller ekstra kolonner markeres. Vi tjekker også for tomme rækker, afsluttende skilletegn og korrekte linjeskift. Hvert strukturelt problem kategoriseres efter alvorlighed.

Overskriftsvalidering

Hvis en overskriftsrække detekteres, tjekker vi for tomme overskrifter, duplikerede overskriftsnavne og overskrifter med indledende/afsluttende mellemrum. Rene, unikke overskrifter er essentielle for dataimportsystemer og databaser.

Datatypeanalyse

For hver kolonne sampler vi dataene for at bestemme den dominerende datatype: heltal, decimaltal, boolean, dato, e-mail, URL eller tekst. Dette hjælper med at identificere kolonner, hvor datatyper er blandede eller uventede, hvilket ofte indikerer datakvalitetsproblemer.

Dublet- og tomrækkedetektion

Vi hasher hver række for effektivt at detektere nøjagtige dubletter. Tomme rækker (rækker uden data eller kun med skilletegn) identificeres og tælles også. Begge problemer forårsager ofte vanskeligheder ved dataimport.

Beregning af kvalitetsscore

Kvalitetsscoren starter ved 100 og reduceres baseret på alvorlighed og antal fundne problemer. Alvorlige problemer som inkonsistente kolonner eller tegnkodningsproblemer forårsager større fradrag, mens mindre problemer som afsluttende mellemrum forårsager mindre fradrag.

Scoreintervaller

  • 90-100: Fremragende – Filen er ren og klar til brug
  • 80-89: God – Mindre problemer der muligvis ikke forårsager vanskeligheder
  • 60-79: Acceptabel – Nogle problemer der bør gennemgås
  • 40-59: Dårlig – Betydelige problemer der skal rettes
  • 0-39: Kritisk – Alvorlige problemer der sandsynligvis forårsager importfejl

CSV-værktøjer