Cómo validamos los archivos CSV

Una descripción técnica de nuestro motor de validación CSV y las verificaciones que realizamos en cada archivo.

Detección de codificación

Analizamos los patrones de bytes de su archivo para detectar la codificación de caracteres. Codificaciones comunes como UTF-8, UTF-8 con BOM, Latin-1 (ISO-8859-1) y Windows-1252 son todas detectadas. Si un BOM (Byte Order Mark) está presente, se identifica y reporta. Los archivos no UTF-8 se convierten antes del análisis.

Detección automática del delimitador

Nuestro motor muestrea las primeras filas de su archivo y cuenta las ocurrencias de delimitadores comunes: coma (,), punto y coma (;), tabulación y tubería (|). Se selecciona el delimitador con la ocurrencia más consistente. Esto maneja las diferencias regionales donde los puntos y comas son comunes en las exportaciones CSV europeas.

Validación de estructura

Verificamos que cada fila tenga el mismo número de columnas que la fila de encabezado. Las filas con columnas faltantes o adicionales se marcan. También verificamos filas vacías, delimitadores finales y finales de línea correctos. Cada problema estructural se categoriza por gravedad.

Validación de encabezados

Si se detecta una fila de encabezado, verificamos encabezados vacíos, nombres de encabezados duplicados y encabezados con espacios iniciales/finales. Encabezados limpios y únicos son esenciales para los sistemas de importación de datos y bases de datos.

Análisis de tipos de datos

Para cada columna, muestreamos los datos para determinar el tipo de datos predominante: entero, flotante, booleano, fecha, correo electrónico, URL o cadena. Esto ayuda a identificar columnas donde los tipos de datos están mezclados o son inesperados, lo que a menudo indica problemas de calidad de datos.

Detección de duplicados y filas vacías

Creamos un hash de cada fila para detectar eficientemente duplicados exactos. Las filas vacías (filas sin datos o solo con delimitadores) también se identifican y cuentan. Ambos problemas comúnmente causan problemas durante la importación de datos.

Cálculo de la puntuación de calidad

La puntuación de calidad comienza en 100 y se reduce según la gravedad y cantidad de problemas encontrados. Los problemas importantes como columnas inconsistentes o problemas de codificación causan mayores deducciones, mientras que los problemas menores como espacios finales causan deducciones menores.

Rangos de puntuación

  • 90-100: Excelente – El archivo está limpio y listo para usar
  • 80-89: Bueno – Problemas menores que pueden no causar dificultades
  • 60-79: Aceptable – Algunos problemas que deben revisarse
  • 40-59: Deficiente – Problemas significativos que necesitan corrección
  • 0-39: Crítico – Problemas graves que probablemente causarán fallos de importación

Herramientas CSV