Todo empezó por investigar si a través de Twitter uno podría saber quién ganaría las elecciones, y acabó con la constatación de que con sólo conocer la lista de las personas que un usuario sigue en esta red social se puede obtener un perfil con su información personal privada bastante aproximado a la realidad. Daniel Gayo Avello, profesor del departamento de Informática en la Escuela de Ingeniería Informática de la Universidad de Oviedo, se quita importancia y admite que su estudio no deja de constatar que para los casos on-line también funciona lo que la sociología ya probó para redes sociales off-line, como las de las amistades o el trabajo, que uno tiende a juntarse con personas parecidas. Lo que técnicamente se denomina «homofilia» y que la sabiduría popular traduce con el refrán «dime con quién andas y te diré quién eres».

Ése ha sido, precisamente, el titular –«Dime a quién sigues y te diré quién eres»– que el diario francés Le Monde utilizó el pasado lunes para informar sobre las investigaciones de Daniel Gayo. Su estudio, todavía a la espera de ser aceptado en un congreso para el próximo verano, ya está disponible en el archivo digital arxiv.org, y allí lo encontraron los franceses. Las conclusiones a las que ha llegado este profesor de Informática de la Universidad de Oviedo alertan de la fragilidad de los límites privados en las redes sociales on-line y de cómo éstas se sirven de este material.

«La gente tiene que darse cuenta de que los usuarios no son los clientes de estas empresas, son el producto. No eres cliente porque, para empezar, no pagas por sus servicios. Ellos van a explotarte, y aunque no es cuestión de demonizarlas, lo que hay que hacer es aplicar el sentido común y ser consciente de lo que cada uno está dando a las redes sociales».

De forma muy resumida, Daniel Gayo, que inició sus trabajos en el campo de la recuperación de la información y de ahí saltó a los blogs y redes sociales, porque ese mundo ofrece muchos más datos y más ricos para los investigadores, centró su campo en Twitter por la cantidad de información pública que permite esta red. A diferencia de Facebook, donde un usuario puede incluso hacer que su lista de amigos sea privada para sus propios amigos, en Twitter una red basada sólo en la publicación de pequeños mensajes de texto, con sólo registrarse, uno puede ver a quién sigue cualquier usuario.

La idea inicial de Gayo, en 2008, era ver si, al igual que sucede con Google, cuya cadencia de búsquedas permite predecir los picos de las epidemias de gripe en el mundo, con una atenta mirada a Twitter se podría saber quién ganaría las elecciones en Estados Unidos. Al final ganó Obama, pero el estudio no funcionó, porque no ganó en todos los estados como habían dicho las estadísticas de Twitter. Había fallado porque no se disponía de datos que ajustasen el perfil demográfico de los usuarios de Twitter para, así, ajustar también las predicciones.

Y fue al meterse en la harina de intentar extraer esta información como Gayo dio con la clave de que Twitter es una red bocazas. Se desarrolló un algoritmo basado en los llamados «culpables por asociación», esos que dicen que si el sujeto A cometió fraude y el sujeto B también, un banco no concederá un crédito al sujeto C, amigo de los dos anteriores. Sobre una muestra de 1,8 millones de usuarios de Twitter, la mayoría de EEUU y Reino Unido, y a través de fórmulas que buscaban determinados campos semánticos o cotejaban los nombres propios con bases de datos de nombres de hombre y de mujer, se logró etiquetar sexo, edad, raza, religión, ideología y orientación sexual de una mínima cantidad de usuarios, los pocos que daban parte de esta información en las minibiografías que Twitter permite poner en los perfiles.

Esa muestra etiquetada, lanzada sobre el total de usuarios sin etiquetar una y otra vez, acababa dando un «peso» estable en la relación de etiquetas. ¿Cómo saber si el algoritmo funcionaba, si efectivamente aquel tipo era, como le asignaba el algoritmo, un homosexual asiático de San Francisco que votaba a Obama? Mandar mails masivos a los usuarios hubiera sido spam. En vez de eso, a un veinte por ciento del grupo etiquetado a través de su biografía se le borraron sus etiquetas y se le aplicó el algoritmo. ¡Bingo! El homosexual lo era también para el programa.

No es tanto como saber quién ganará las elecciones –«por ahora no se puede predecir por Twitter»–, pero sí es una llamada de atención para los que se confían demasiado con las redes sociales. Gayo aporta, además, algunas soluciones para usuarios desconfiados, como es el empleo de dos cuentas: una anónima, sólo para seguir a gente, y otra, con la información personal, en la que sólo se publique información.