Kaip tikriname CSV failus

Techninė mūsų CSV tikrinimo variklio apžvalga ir patikrinimai, kuriuos atliekame kiekvienam failui.

Koduotės aptikimas

Analizuojame failo baitų šablonus, kad aptiktume simbolių koduotę. Įprastos koduotės, tokios kaip UTF-8, UTF-8 su BOM, Latin-1 (ISO-8859-1) ir Windows-1252, yra visos aptinkamos. Jei yra BOM (baitų eilės žyma), ji identifikuojama ir pranešama. Ne UTF-8 failai konvertuojami prieš analizę.

Automatinis skyriklių aptikimas

Mūsų variklis paima pirmąsias failo eilutes ir suskaičiuoja įprastų skyriklių pasikartojimus: kablelis (,), kabliataškis (;), tabuliacija ir vertikalus brūkšnys (|). Pasirenkamas skyriklis su nuosekliausiu pasikartojimu. Tai tvarko regioninius skirtumus, kai kabliataškiai yra įprasti Europos CSV eksportuose.

Struktūros tikrinimas

Tikriname, ar kiekviena eilutė turi tiek pat stulpelių, kiek antraštės eilutė. Eilutės su trūkstamais arba papildomais stulpeliais pažymimos. Taip pat tikriname tuščias eilutes, galinius skyrinklius ir teisingas eilučių pabaigas. Kiekviena struktūrinė problema kategorizuojama pagal rimtumą.

Antraščių tikrinimas

Jei aptinkama antraštės eilutė, tikriname tuščias antraštes, pasikartojančius antraščių pavadinimus ir antraštes su pradiniais/galiniais tarpais. Švarios, unikalios antraštės yra būtinos duomenų importo sistemoms ir duomenų bazėms.

Duomenų tipų analizė

Kiekvienam stulpeliui imame duomenų pavyzdžius, kad nustatytume vyraujantį duomenų tipą: sveikasis skaičius, slankiojo kablelio skaičius, loginė reikšmė, data, el. paštas, URL arba eilutė. Tai padeda identifikuoti stulpelius, kuriuose duomenų tipai yra sumaišyti arba netikėti, o tai dažnai rodo duomenų kokybės problemas.

Dublikatų ir tuščių eilučių aptikimas

Kiekvienai eilutei skaičiuojame maišos reikšmę, kad efektyviai aptiktume tikslius dublikatus. Tuščios eilutės (eilutės be duomenų arba tik su skyrikliais) taip pat identifikuojamos ir skaičiuojamos. Abi problemos dažnai sukelia sunkumų importuojant duomenis.

Kokybės balo skaičiavimas

Kokybės balas prasideda nuo 100 ir mažinamas pagal rastų problemų rimtumą ir skaičių. Rimtos problemos, tokios kaip nenuoseklūs stulpeliai ar koduotės problemos, sukelia didesnius atskaitymus, o mažesnės problemos, tokios kaip galiniai tarpai, sukelia mažesnius.

Balų intervalai

  • 90-100: Puikiai – Failas švarus ir paruoštas naudojimui
  • 80-89: Gerai – Smulkios problemos, kurios gali nesukelti sunkumų
  • 60-79: Patenkinamai – Keletas problemų, kurias reikėtų peržiūrėti
  • 40-59: Blogai – Reikšmingos problemos, kurias reikia ištaisyti
  • 0-39: Kritiškai – Rimtos problemos, kurios greičiausiai sukels importo klaidas

CSV įrankiai