Kaip tikriname CSV failus
Techninė mūsų CSV tikrinimo variklio apžvalga ir patikrinimai, kuriuos atliekame kiekvienam failui.
Koduotės aptikimas
Analizuojame failo baitų šablonus, kad aptiktume simbolių koduotę. Įprastos koduotės, tokios kaip UTF-8, UTF-8 su BOM, Latin-1 (ISO-8859-1) ir Windows-1252, yra visos aptinkamos. Jei yra BOM (baitų eilės žyma), ji identifikuojama ir pranešama. Ne UTF-8 failai konvertuojami prieš analizę.
Automatinis skyriklių aptikimas
Mūsų variklis paima pirmąsias failo eilutes ir suskaičiuoja įprastų skyriklių pasikartojimus: kablelis (,), kabliataškis (;), tabuliacija ir vertikalus brūkšnys (|). Pasirenkamas skyriklis su nuosekliausiu pasikartojimu. Tai tvarko regioninius skirtumus, kai kabliataškiai yra įprasti Europos CSV eksportuose.
Struktūros tikrinimas
Tikriname, ar kiekviena eilutė turi tiek pat stulpelių, kiek antraštės eilutė. Eilutės su trūkstamais arba papildomais stulpeliais pažymimos. Taip pat tikriname tuščias eilutes, galinius skyrinklius ir teisingas eilučių pabaigas. Kiekviena struktūrinė problema kategorizuojama pagal rimtumą.
Antraščių tikrinimas
Jei aptinkama antraštės eilutė, tikriname tuščias antraštes, pasikartojančius antraščių pavadinimus ir antraštes su pradiniais/galiniais tarpais. Švarios, unikalios antraštės yra būtinos duomenų importo sistemoms ir duomenų bazėms.
Duomenų tipų analizė
Kiekvienam stulpeliui imame duomenų pavyzdžius, kad nustatytume vyraujantį duomenų tipą: sveikasis skaičius, slankiojo kablelio skaičius, loginė reikšmė, data, el. paštas, URL arba eilutė. Tai padeda identifikuoti stulpelius, kuriuose duomenų tipai yra sumaišyti arba netikėti, o tai dažnai rodo duomenų kokybės problemas.
Dublikatų ir tuščių eilučių aptikimas
Kiekvienai eilutei skaičiuojame maišos reikšmę, kad efektyviai aptiktume tikslius dublikatus. Tuščios eilutės (eilutės be duomenų arba tik su skyrikliais) taip pat identifikuojamos ir skaičiuojamos. Abi problemos dažnai sukelia sunkumų importuojant duomenis.
Kokybės balo skaičiavimas
Kokybės balas prasideda nuo 100 ir mažinamas pagal rastų problemų rimtumą ir skaičių. Rimtos problemos, tokios kaip nenuoseklūs stulpeliai ar koduotės problemos, sukelia didesnius atskaitymus, o mažesnės problemos, tokios kaip galiniai tarpai, sukelia mažesnius.
Balų intervalai
- 90-100: Puikiai – Failas švarus ir paruoštas naudojimui
- 80-89: Gerai – Smulkios problemos, kurios gali nesukelti sunkumų
- 60-79: Patenkinamai – Keletas problemų, kurias reikėtų peržiūrėti
- 40-59: Blogai – Reikšmingos problemos, kurias reikia ištaisyti
- 0-39: Kritiškai – Rimtos problemos, kurios greičiausiai sukels importo klaidas