La exploración de datos es un enfoque similar al análisis de datos inicial, mediante el cual un analista de datos utiliza la exploración visual para comprender lo que hay en un conjunto de datos y las características de los datos, en lugar de a través de los sistemas tradicionales de gestión de datos. Estas características pueden incluir el tamaño o la cantidad de datos, la integridad de los datos, la corrección de los datos, las posibles relaciones entre elementos de datos o archivos / tablas en los datos.

La exploración de datos generalmente se realiza mediante una combinación de actividades automáticas y manuales. Las actividades automatizadas pueden incluir perfiles de datos o visualización de datos o informes tabulares para brindar al analista una visión inicial de los datos y una comprensión de las características clave.

A menudo, esto es seguido por un desglose manual o un filtrado de los datos para identificar anomalías o patrones identificados a través de las acciones automatizadas. La exploración de datos también puede requerir secuencias de comandos manuales y consultas en los datos (por ejemplo, usando lenguajes como SQL o R) o usando Excel o herramientas similares para ver los datos sin procesar.

Todas estas actividades tienen como objetivo crear un modelo mental claro y la comprensión de los datos en la mente del analista, y definir metadatos básicos (estadísticas, estructura, relaciones) para el conjunto de datos que se pueden utilizar en un análisis posterior. Una vez que se tiene esta comprensión inicial de los datos, los datos pueden podarse o refinarse eliminando partes inutilizables de los datos, corrigiendo elementos mal formateados y definiendo relaciones relevantes entre conjuntos de datos. Este proceso también se conoce como determinar la calidad de los datos.

La exploración de datos también puede referirse a la consulta y visualización ad hoc de datos para identificar posibles relaciones o ideas que pueden estar ocultas en los datos.