Por Cathy O’Neil
Todos están preocupados por el algoritmo de TikTok, la popular aplicación china de videos cortos. El presidente Donald Trump cree que representa una amenaza para la seguridad nacional (o tal vez para sus mítines de campaña), por lo que exige que sus operaciones en Estados Unidos se vendan a una compañía estadounidense.
China quiere mantenerla lejos de manos estadounidenses. TikTok, por su parte, insiste en que es amigable y totalmente transparente.
Entonces, ¿qué es? En mi mejor entendimiento, es como cualquier otro algoritmo, lo que significa que se puede usar para mal o para bien.
Al igual que otras aplicaciones de redes sociales, TikTok gana dinero al mantener a la gente ahí, mirando, para poder mostrarles más anuncios. Cuando los usuarios se registran, la aplicación reúne “metadatos”, como fecha de nacimiento, intereses y ubicación, y luego rastrea el comportamiento para averiguar qué tipo de videos llaman su atención.
Cuando se cargan los videos, TikTok los clasifica utilizando información como leyendas, hashtags y ciertos elementos de sonido. Luego rastrea los datos de participación, como las vistas y acciones que consisten en compartir los videos, para comprender qué tipo de personas tienden a atraer.
No sé a ciencia cierta cómo el algoritmo de TikTok combina a personas con videos: el “Centro de Transparencia” de la compañía no ha respondido a mi solicitud para examinar el código fuente. Dicho esto, puedo ofrecer una hipótesis fundamentada*.
Tales motores de recomendación tienden a almacenar información sobre los usuarios y contenido en forma de series cortas de números, generalmente de cerca de 20 dígitos de longitud. Entonces, una persona tendría una serie que describe sus “gustos”, y un video tendría una que describe sus “cualidades”.
Cada dígito se refiere a una característica específica y estadísticamente independiente, y la ubicación es importante: el indicador de participación más poderoso va en primer lugar.
Si, por ejemplo, el rasgo más importante fuera el género, el primer número sería 1 para las personas que siempre están alineadas con lo que le gusta a las mujeres, y el rango va hasta -1 para las personas que se inclinan completamente por lo masculino.
El dígito correspondiente para un video oscila entre 1, para un video que le encanta a las mujeres y a los hombres no, y -1 para un video que le encanta a los hombres y a las mujeres no.
El segundo dígito podría ser la violencia: cuánto atrae a una persona la violencia (suponiendo que esto sea independiente del género) y cuánto atrae un video a las personas que se sienten atraídas por la violencia, y así sucesivamente, en importancia decreciente.
En la mayoría de los casos, 20 dígitos son suficientes para describir a una persona o una cosa (para ser claros, nadie sería un perfecto 1 o -1, y las categorías no serían tan claras como el género o la violencia. El objetico de este ejercicio es ilustrar).
Para decidir qué videos recomendar, el algoritmo toma la serie de un usuario y las series de todos los videos y realiza una especie de multiplicación que produce puntajes más altos para videos con coincidencias más positivas o negativas en posiciones más importantes.
Probablemente también haya algo de edición para garantizar que las personas no sigan viendo los mismos videos (o demasiado similares). A medida que las personas miran más y diferentes cosas, se actualizan sus series y las series de los videos que miran.
Hasta ahora vamos bien. Pero si no me equivoco sobre el funcionamiento, el algoritmo también tiene el poder de favorecer los videos con ciertos tipos de contenido. Los videos antivacunación tendrán una serie característica de 20 dígitos, al igual que los videos QAnon y aquellos destinados a socavar la votación en las elecciones presidenciales del 2020.
Quien administre el algoritmo podrá silenciar o aumentar el impacto de esos videos al reprimir o potenciar las cualidades relevantes, como agregar un ajuste de codificación a medida que multiplique todos los puntajes de género por cero o por 1000.
Esto no es ciencia ficción. Sucede mucho, a veces por buenas razones. Por ejemplo, Meetup modificó su motor de recomendaciones para ser menos sexista. Pero los ajustes también pueden promover los tipos de contenido más peligrosos y divisivos, con ánimo de lucro o con fines políticos.
En resumen, incluso si TikTok es transparente sobre cómo funciona su algoritmo, e incluso si ha estado actuando de manera benigna hasta ahora, no asumiría que se puede confiar en que no se involucrará en una manipulación dañina. ¿Por qué más querría China mantener el control sobre el código?
* Aprendí sobre este tipo de motor de recomendación a través de Matt Gattis, cofundador de Hunch, y escribí al respecto en un libro titulado Doing Data Science.