Rotación Empleados

En el actual entorno empresarial tan competitivo, la toma de decisiones informadas es esencial para el éxito a largo plazo. La retención de empleados y la satisfacción laboral son cuestiones críticas para cualquier organización, ya que afectan directamente a la productividad, la moral y la rentabilidad.

Con el objetivo de reducir la rotación de empleados y mejorar la satisfacción en el trabajo, ABC Corporation nos ha contratado para llevar a cabo un potente proyecto de análisis de datos y pruebas A/B. Nuestra misión es identificar los factores clave que influyen en la satisfacción en el trabajo y, en última instancia, en la retención de los empleados.

En este proyecto, presentaremos los resultados de nuestro análisis exploratorio de datos, del diseño de un experimento A/B y analizaremos los resultados para proporcionar a ABC Corporation valiosos conocimientos que informen sus decisiones estratégicas.

Transformar el talento: análisis de datos para retener y potenciar a los empleados de ABC Corp

Logo de Github (sólo el contorno del gato)

Escenario

Descripción de la empresa

ABC Corporation, fundada en 1980 en California, es una consultora tecnológica especializada en ofrecer soluciones de inteligencia artificial (IA) y aprendizaje automático a empresas de diversos sectores. El objetivo principal de la empresa es automatizar y optimizar los procesos de negocio a través de tecnologías de vanguardia.

La empresa se distingue por su capacidad para ofrecer soluciones de inteligencia artificial (IA) y aprendizaje automático a empresas de diversos sectores.

La empresa se distingue por contar con un equipo multidisciplinar formado por expertos en UX/UI, marketing, analistas y otros campos relevantes. Esta diversidad permite una sinergia única entre conocimientos técnicos especializados y perspectivas variadas, lo que les permite ofrecer soluciones personalizadas y adaptadas a las necesidades individuales de cada cliente.

En el último proyecto llevado a cabo por la empresa se han utilizado tecnologías de última generación para la optimización de los procesos de selección de personal. Desarrollaron una plataforma de selección inteligente en la que los empleados pueden analizar automáticamente los CV de los candidatos potenciales, identificar sus habilidades clave y, por último, clasificar a los candidatos en función de su idoneidad para puestos específicos. Además, crearon un sistema de recomendaciones para sugerir los mejores candidatos a los reclutadores.

Data Source

Los datos han sido recopilados internamente por la empresa y compartidos con nosotros en un archivo CSV.

Estructura

El fichero consta de 1.614 filas con información sobre cada empleado de la empresa, incluidos los que se dieron de baja y 41 columnas con la siguiente información:

  1. Edad: La edad del empleado.
  2. ÍndeiceDeAbandono: Indica si el empleado ha dejado la empresa.
  3. ViajaPorTrabajo: Describe la frecuencia de los viajes relacionados con el trabajo para el empleado (por ejemplo, «Viaje_Raramente» para raramente).
  4. TasaDiaria: La tarifa diaria del empleado.
  5. Departamento: El departamento en el que trabaja el empleado (por ejemplo, «Investigación y Desarrollo», «Ventas», etc.).
  6. DistanciaDesdeCasa: La distancia desde la casa del empleado hasta su lugar de trabajo.
  7. Educación: El nivel educativo del empleado (generalmente en una escala del 1 al 5).
  8. CampoDeEducación: El campo de educación del empleado.
  9. ConteoDeEmpleados: Un contador generalmente establecido en 1 y utilizado para contar empleados.
  10. NúmeroDeEmpleado: Un número de identificación único para el empleado.
  11. SatisfacciónEntorno: El nivel de satisfacción del empleado con respecto a su entorno laboral, con valores que van de 1 a 4, donde 4 es el nivel más alto de satisfacción.
  12. Género: El género del empleado, donde 0 corresponde a «masculino» y 1 corresponde a «femenino».
  13. TasaHoraria: La tarifa por hora del empleado.
  14. Implicación: El nivel de compromiso del empleado con su trabajo.
  15. Nivel: El nivel jerárquico del empleado en la empresa.
  16. Rol: El rol o posición laboral del empleado.
  17. Satisfacción: El nivel de satisfacción del empleado con su trabajo.
  18. EstadoCivil: El estado civil del empleado (por ejemplo, «Soltero», «Casado», etc.).
  19. IngresoMensual: El ingreso mensual del empleado.
  20. TasaMensual: La tasa mensual del empleado.
  21. NumEmpresasTrabajadas: El número de empresas para las que ha trabajado el empleado.
  22. MayoresDe18: Indica si el empleado tiene más de 18 años.
  23. HorasExtras: Indica si el empleado trabaja horas extras.
  24. PorcentajeAumentoSalario: El porcentaje de aumento salarial para el empleado.
  25. CalificaciónDesempeño: La calificación de desempeño del empleado.
  26. SatisfacciónRelaciones: El nivel de satisfacción en las relaciones interpersonales del empleado.
  27. HorasEstándar: Las horas de trabajo estándar.
  28. NivelOpcionesAcciones: El nivel de opciones de acciones para el empleado.
  29. TotalAñosExperienciaLaboral: El número total de años de experiencia laboral del empleado.
  30. VecesEntrenamientoAñoPasado: El número de veces que el empleado recibió entrenamiento en el último año.
  31. BalanceVidaTrabajo: El equilibrio entre el trabajo y la vida personal para el empleado.
  32. AñosEnEmpresa: El número de años que el empleado ha trabajado en la empresa actual.
  33. AñosEnRolActual: El número de años que el empleado ha estado en su rol actual.
  34. AñosDesdeÚltimaPromoción: El número de años desde la última promoción del empleado.
  35. AñosConActualGerente: El número de años que el empleado ha estado bajo la supervisión del gerente actual.
  36. MismoIngresoMensual: El ingreso mensual del empleado.
  37. FechaNacimiento: El año de nacimiento del empleado (considerando que los datos se recopilaron en 2023).
  38. Salario: El salario de los empleados.
  39. RolDepartamento: El departamento y rol del empleado.
  40. NúmeroHijos: El número de hijos de los empleados.
  41. Teletrabajo: Si el empleado puede trabajar de forma remota o no.

Fase 1: Análisis Exploratorio de Datos (EDA)

Antes de llevar a cabo el proyecto, realizar pruebas A/B y formular hipótesis, es crucial comprender mejor el conjunto de datos y sus características. Se llevó a cabo un análisis exploratorio detallado del conjunto de datos para familiarizarnos con la información y comprender con qué datos contábamos.

Fase 2: Transformación de Datos

En esta fase, nos centramos en refinar y mejorar la calidad de los datos extraídos a través de una serie de transformaciones. Los pasos clave realizados incluyen:

  1. Normalización de Columnas:
    • Transformación de todos los nombres de columnas a minúsculas y snake case, asegurando uniformidad y simplificando los procesos de manipulación de datos.
  2. Uniformidad de Tipo de Datos:
    • Normalización de valores en las columnas para garantizar tipos de datos consistentes. Por ejemplo, mapeo de valores binarios (0 y 1) en la columna ‘Género’ a ‘Masculino’ y ‘Femenino’ o la conversión de respuestas en la columna ‘Teletrabajo’ a ‘Sí’ o ‘No’ para mayor claridad.
  3. Corrección de Errores Tipográficos:
    • Abordaje de errores tipográficos en columnas categóricas para mantener la precisión e integridad en el conjunto de datos.
  4. Eliminación de Duplicados:
    • Implementación de medidas para identificar y eliminar registros duplicados, mejorando la integridad de los datos.
  5. Conversión de Tipo de Datos:
    • Modificación de tipos de datos de columnas específicas para alinearse con los requisitos de análisis y mejorar la consistencia general.
  6. Manejo de Valores Nulos:
    • Evaluación y gestión de valores nulos mediante diversas técnicas. Algunos fueron reemplazados con la moda, otros con «Desconocido», mientras que otros fueron imputados utilizando el algoritmo de vecinos más cercanos (KNN), asegurando un enfoque integral para los datos faltantes.
  7. Manejo de Valores Inconsistentes:
    • Identificación y corrección de valores inconsistentes, como distancias negativas en la columna ‘DistanciaDesdeCasae’, para mejorar la confiabilidad de los datos.

Estas transformaciones fueron implementadas mediante funciones de Pandas adaptadas a las características únicas del conjunto de datos. El resultado es un conjunto de datos refinado y estandarizado, sentando una base sólida para los procesos analíticos posteriores.

Fase 3: Diseño e Inserción de la Base de Datos

En esta fase fundamental, el objetivo es diseñar meticulosamente la estructura de la base de datos, crear la base de datos e insertar los datos refinados. Los componentes clave de esta fase son:

  1. Diseño de la Estructura de la Base de Datos:
    • Diseño de la estructura de la base de datos en estrella identificando tablas esenciales y estableciendo sus relaciones. Esto implicó definir claves primarias y foráneas para garantizar la integridad de los datos y facilitar consultas eficientes.
  2. Transformación de Datos para Inserción en la Base de Datos:
    • Transformación de los datos procesados en un formato adecuado para la inserción en la base de datos. Esto incluyó modificar los datos CSV a una lista de tuplas, alineándolos con la estructura de las tablas de la base de datos diseñada.
  3. Creación de la Base de Datos:
    • Utilización de herramientas de Python y SQL para crear la base de datos, estableciendo conexiones para facilitar un flujo de datos fluido entre la aplicación y la base de datos. Este paso asegura una base sólida para almacenar y recuperar información.
  4. Inserción de Datos Transformados:
    • Ejecución de la inserción de datos de empleados transformados en las respectivas tablas de la base de datos. Este paso completa la integración de los datos limpios y estandarizados en la base de datos recién creada.

Este enfoque integral no solo asegura el establecimiento de una base de datos bien estructurada, sino que también garantiza la exitosa inserción de datos, preparando el terreno para los procesos de análisis y recuperación de datos posteriores.

Con la finalización de este proceso ETL, los datos han transitado sin problemas desde su origen a través de transformaciones meticulosas, culminando en su inserción en una base de datos bien estructurada. Este flujo organizado no solo asegura la integridad y confiabilidad de los datos, sino que también sienta las bases para procesos analíticos sólidos y generación de conocimientos.

Estructura de la base de datos en SQL Workbench. Modelo en estrella, con una tabla central con los datos personales de los empleados y tablas en los puntos de la estrella para valoraciones, salarios y gestión interna de la empresa.
def creacion_bbdd_tablas(query, contraseña, nombre_bbdd=None):    """    Crea una conexión a la base de datos MySQL y ejecuta una consulta para crear una tabla.    Args:    - query (str): Consulta SQL para crear la tabla en la base de datos.    - contraseña (str): Contraseña para acceder a la base de datos.    - nombre_bbdd (str): Nombre de la base de datos a la que se conectará.    Returns:        - None    """    if nombre_bbdd is not None:        cnx = mysql.connector.connect(            user="root",             password=contraseña,             host="127.0.0.1"        )        mycursor = cnx.cursor()        try:            mycursor.execute(query)            print(mycursor)        except mysql.connector.Error as err:            print(err)            print("Error Code:", err.errno)            print("SQLSTATE", err.sqlstate)            print("Message", err.msg)    else:        cnx = mysql.connector.connect(            user="root",             password=contraseña,            host="127.0.0.1",             database=nombre_bbdd
gráficos de barras con las distintas variables con valoraciones
Resultado chi cuadrado de la prueba A/B (valor p = 0,003)

Fase 4: Análisis de Datos

  1. Análisis de Datos con Visualizaciones en Python En esta fase, el objetivo es realizar un análisis detallado de los datos mediante visualizaciones en Python, mejorando la interpretación de patrones y tendencias entre la satisfacción laboral y el índice de abandono de los empleados.
    • Utilizar bibliotecas de Python como Matplotlib y Seaborn para crear diversas visualizaciones, con el fin de observar mejor las diferencias.
    • Analizar visualizaciones para explorar posibles relaciones entre los niveles de satisfacción laboral y el índice de abandono de los empleados. Buscar patrones, tendencias e información potencial que pueda orientar la fase subsiguiente de pruebas A/B.
  2. Pruebas A/B para Satisfacción Laboral y Rotación de Empleados En esta fase crucial, el objetivo principal es investigar la relación entre la satisfacción laboral y la rotación de empleados, guiados por la hipótesis de que niveles más bajos de satisfacción laboral están significativamente asociados con una mayor probabilidad de salida de empleados. Los pasos estructurados para este análisis son los siguientes:
    • División en Grupos: Categorizar a los empleados en dos grupos distintos: Grupo A «Satisfechos» y Grupo B «No Satisfechos», basándose en criterios predefinidos (calificación de satisfacción >= 3).
    • Cálculo de la Tasa de Rotación: Calcular de manera independiente la tasa de rotación de empleados para cada grupo, proporcionando información sobre los patrones de salida entre empleados satisfechos y no satisfechos.
    • Análisis Estadístico: Realizar un análisis estadístico sólido utilizando la prueba de chi-cuadrado para determinar si hay una diferencia estadísticamente significativa en las tasas de rotación entre el Grupo A y el Grupo B.
    • Análisis de Resultados: Analizar exhaustivamente los resultados obtenidos, centrándose en patrones, tendencias y significancia estadística. Cuantificar la magnitud de la relación observada utilizando medidas estadísticas como la prueba de chi-cuadrado, proporcionando una comprensión numérica del impacto sustancial de la satisfacción laboral en la rotación de empleados.
Tras el análisis inicial de la satisfacción laboral y la rotación, la exploración se amplía a factores adicionales que influyen en la rotación de empleados. El enfoque se desplaza hacia el salario, categorizando a los empleados en dos grupos: Grupo A «Salario Alto» (> $5500) y Grupo B «Salario Bajo». Se realiza una prueba A/B paralela dentro de estos grupos para evaluar el impacto estadísticamente significativo del salario en la rotación de empleados.

También se analiza mediante pruebas similares la relación de la rotación con la distancia a casa obteniendo diferencias no significativas.

Este enfoque meticuloso garantiza no solo una exploración exhaustiva de las relaciones, sino que también pone un fuerte énfasis en hallazgos estadísticamente significativos, reforzando la confiabilidad e importancia de los resultados para informar los procesos de toma de decisiones.

Fase 5: Creación de Informes y Paneles con Power BI

En esta fase, el objetivo es transmitir eficazmente los hallazgos a través de visualizaciones y paneles creados con Power BI.

  1. Preparación de Datos: Asegurar que los datos estén formateados adecuadamente para Power BI, abordando cualquier transformación necesaria.
  2. Diseño del Panel de Power BI: Crear un panel que encapsule las ideas clave de las pruebas A/B y el análisis visual, incluyendo visualizaciones relevantes para presentar los datos de manera convincente y fácil de entender.
  3. Storytelling: Elaborar una narrativa dentro del panel, guiando a los espectadores a través de la historia del análisis. Comunicar claramente la importancia de los resultados de las pruebas A/B y los hallazgos visuales.
  4. Compartir y Distribuir: Compartir el panel con las partes interesadas relevantes, asegurando accesibilidad y facilidad de comprensión. Proporcionar cualquier documentación necesaria para facilitar la interpretación.

Conclusiones

Los hallazgos clave del estudio fueron los siguientes:

  • En general, existe una satisfacción laboral positiva en la empresa.
  • Existe una relación significativa entre la insatisfacción laboral y la tasa de abandono.
  • La tasa de abandono es aún mayor cuando los salarios son bajos.
  • Habría que mejorar las condiciones laborales y el salario, especialmente para aquellos empleados que se desea mantener.