Se dice que una de las ventajas de la inteligencia artificial o de las evaluaciones mediante modelos analíticos es que no tienen en cuenta prejuicios como los tenemos las personas, por tratarse de máquinas que solo responden de acuerdo a los datos que reciben sin tomar en cuenta otros elementos que podrían alterar su juicio.
Como en el caso de los humanos, estamos influenciados por la cultura, el estado de ánimo, los gustos y vivencias que hayamos tenido para dar un juicio de valor sobre un tema o una persona, lo que nos hace tendientes a tener visiones sesgadas.
Los modelos matemáticos, el aprendizaje automático, las redes neuronales o los procesadores de lenguaje natural no lo están como nosotros, sin embargo ¿qué es lo que sucede para que se presenten casos de prejuicio o discriminación por parte de sistemas de inteligencia artificial?
Datos
Para entrenar o enseñarle a cualquier modelo estadístico o matemático, que son la base de la inteligencia artificial, debemos usar datos.
Ya sea históricos de lo que ha sucedido si queremos predecir cuáles clientes dejarán de pagar una deuda o cuáles son compradores potenciales de mi producto, requerimos historial, donde el evento que busco predecir se haya presentado anteriormente para poder extrapolar sus características y determinar la capacidad predictiva que cada una de las variables tiene para el objetivo deseado.
Se requieren datos y tienen que ser con la mayor variedad posible para una mejor predicción y comprensión del fenómeno.
Tomando esto como base y dependiendo de los datos que ingresemos a la máquina, además de las técnicas que utilicemos, podemos llegar a tres posibles resultados en los modelos:
1. Sub-ajustado, en el que la máquina no tomará en cuenta los datos y dará conclusiones genéricas y sin sustento
2. Adecuado, en el que se dará aprendizaje automático ya que utilizará los datos presentes para extrapolarlos y será capaz de predecir resultados con alta probabilidad y efectividad
3. Sobre-ajustado, en el que la máquina memoriza los datos y da resultados excepcionales en todos los casos
Debido a que la máquina aprende basada en los datos que ingresamos, debe tomarlos en cuenta y dar resultados basados en ellos, no al pie de la letra ni sin la base de ellos, por eso es importante la cantidad y calidad de los que se utilicen así como la sistematización para aplicarlos y prepararlos.
Sesgo
Entonces, si la computadora aprende basada en los datos que le proporcionamos y con base en ellos extrapola sus propias reglas (si se trata de aprendizaje automático) o compara y toma similitudes basadas en grupos que nosotros les damos como en el caso del aprendizaje en profundidad o el procesamiento de lenguaje natural.
El caso es que para aprender toman en cuenta información inicial que les sirve de punto de partida.
Y si las conclusiones a las que llegan tienen tintes racistas, discriminatorios o xenófobos. ¿Cómo es que la máquina llego a ellos si no posee prejuicios ni ideas preconcebidas?
En la mayoría de los casos se debe a que en la fase de entrenamiento de la inteligencia artificial y de los modelos estadísticos que la sustentan se utilizan datos sesgados o los desarrolladores imprimen sus propios prejuicios a través de la información que alimentan.
Tenemos el caso del sistema de pasaportes de Nueva Zelanda en el que puedes tomar tu foto y subirla al sistema para utilizarla.
Sin embargo, un usuario tuvo problemas para que aceptara su foto porque el sistema determinó que tenía los ojos cerrados y eso era incorrecto.
El usuario realmente tenía los ojos abiertos pero el sistema no lo aceptaba y lo rechazaba.
Otra situación donde podemos ver cómo se mantienen los prejuicios en los datos y se pasan a las máquinas, si esos mismos datos se usan para entrenarlas, es cuando hacemos búsquedas en Google.
Si queremos imágenes de CEO o presidentes de compañías, lo que nos muestra son principalmente hombres. Entonces si creáramos un modelo que ayudara a reclutar y calificar candidatos a esta posición, posiblemente estaría inclinado hacia los hombres, debido a que la palabra se asocia principalmente con ellos.
De la misma manera si buscamos terrorista, nos muestra las siguientes imágenes.
Por lo que podríamos asumir con cierta certeza que si una persona es de origen y apariencia árabe entonces será terrorista.
Pasa lo mismo con los términos ingeniero y chef, en los que aparecen principalmente hombres por lo que se pudiera suponer que son profesiones para hombres, lo que es un prejuicio como todos los anteriores.
Muestra de datos
Con esto podemos ver que los datos están cargados hacia los prejuicios que tenemos las personas, eso hace que cuando creamos modelos para predicciones o inteligencia artificial, tengan esos mismos prejuicios de forma implícita y los hagan persistir, ya sea a propósito o porque dentro de los datos existentes tenemos algunos que sólo refuerzan el prejuicio como el caso de la búsqueda de las palabras terrorista, CEO o ingeniero.
Como en la aplicación de fotos de Google que automáticamente clasificó las imágenes de una persona y su novia como gorilas.
Conclusión
Para evitar trasladar los prejuicios de las personas hacia las máquinas debemos tener cuidado con las muestras de datos que utilizamos y los procesos para entrenar los modelos y evitar hacer generalizaciones sobre pocos datos ya que eso nos puede llevar a problemas.
Este es claramente un problema inicial de falta de información y un proceso en el que aún estamos explorando sus alcances y resultados pero es importante empezar a pensar en estos detalles para poder prevenir potenciales fallas en los sistemas de inteligencia artificial.