Fair Learning: an optimal transport based approach

Paula Gordaliza Pastor

doi:10.35376/10324/43392

Abstract

El proposito de esta tesis es doble. Por un lado, se estudian metodos de transporte optimo destinados a hacer inferencia estadistica. Por otro lado, se considera el reciente problema del aprendizaje justo con contribuciones basadas en la teoria del transporte optimo. El uso generalizado de aplicaciones basadas en modelos de aprendizaje automatico en la vida cotidiana y en el mundo profesional ha traido consigo preocupaciones sobre las cuestiones eticas que surgen de la adopcion de estas tecnologias. En la primera parte de la tesis, motivamos el problema de la equidad presentando algunos resultados estadisticos exhaustivos sobre el estudio del criterio statistical parity a traves del analisis del indice disparate impact en el conjunto de datos reales Adult income. Mostramos que tratar de hacer modelos justos puede ser una tarea particularmente dificil, especialmente cuando las observaciones de entrenamiento contienen sesgos. A continuacion, se hace una revision de los metodos matematicos para el aprendizaje justo en un marco general, con contribuciones novedosas en el analisis del precio de la equidad en regresion y clasificacion. En este ultimo, concluimos esta primera parte reformulando los vinculos entre la equidad y la previsibilidad en terminos de metricas de probabilidad. Analizamos los metodos de reparacion basados en el transporte de las distribuciones condicionales hacia el baricentro de Wasserstein. Por ultimo, proponemos el random repair que establece un equilibrio entre la perdida de informacion y el nivel de equidad. La segunda parte esta dedicada a la teoria asintotica del coste empirico de transporte. Proporcionamos un Teorema Central del Limite para la distancia Monge-Kantorovich entre dos distribuciones empiricas con tamanos $n$ y $m$, $\mathcal{W}_p(P_n,Q_m), p\geq1,$ y observaciones en $\mathbb{R}$. En el caso $p>1$ nuestras hipotesis son minimales en terminos de momentos y suavidad. Probamos resultados que tratan con la eleccion de las constantes de centramiento. Proporcionamos una estimacion consistente de la varianza asintotica que permite construir tests de dos muestras e intervalos de confianza para certificar la similitud entre dos distribuciones. Estos se utilizan luego para evaluar un nuevo criterio de equidad en clasificacion binaria. Ademas, proporcionamos un principio de desviaciones moderadas para el coste empirico de transporte en dimension general. Por ultimo, los baricentros de Wasserstein y el criterio de varianza utilizando la distancia de Wasserstein se emplean en muchos problemas para analizar la homogeneidad de una coleccion de distribuciones y las relaciones estructurales entre observaciones. Proponemos la estimacion de los cuantiles del proceso empirico de la variacion de Wasserstein mediante un procedimiento bootstrap. A continuacion, con estos resultados hacemos inferencia estadistica en un modelo de deformacion general. Los tests se basan en la varianza de las distribuciones con respecto a su baricentro de Wasserstein, para los que probamos teoremas centrales del limite, incluidas las versiones bootstrap.

Full Text