El gran scraping de la web de las IA generativas: ¿fair use o robo a los creadores?

Fair use AI scraping

Los grandes modelos de lenguaje como ChatGPT o Stable Diffusion han sido posibles gracias a la extracción masiva de datos de la web pública. Varias demandas de los creadores de contenido se basan en el derecho de autor, mientras las empresas de IA argumentan que hay fair use, uso legítimo.

El scraping es una parte de la minería de datos, avalada por las leyes europeas, pero con excepciones. Hay muchas cosas a definir para saber si el movimiento de las empresas de IA al entrenar sus modelos con media web puede ganar las demandas. Entre ellas, dirimir si una IA «copia» o «lee», si «aprende» o «reproduce».

“Si un redactor del Wall Street Journal leyera artículos del New York Times sobre un tema y luego escribiera su propio artículo, siempre que sólo copiara hechos e información pero no la expresión, no habría violación de los derechos de autor. Entonces, ¿por qué habría una infracción en el caso de la IA?”, le leí esto a Jeremy Paul y enseguida lo contacté para que me explicase por qué entonces el New York Times está evaluando demandar también a OpenAI y por qué estos cerraron un acuerdo con Associated Press.

David Maeztu me dijo que si existe reproducción (copia de la obra en un soporte que permita la obtención de copias) no se puede copiar sin autorización del autor, así que sólo quedaba hablar un desarrollador que me explicase si en el entrenamiento o en el scraping hay copia o no. El resultado es este reportaje sobre el dilema del fair use en relación con la IA que hemos publicado en Newtral, y este artículo sobre el scraping y cuándo es legal.

[Archive]

SeAcabó: Rubiales desata el MeToo español

España ha ganado el Mundial de fútbol. Lo han ganado sus mujeres, y debería ser una noticia que acapare todas las portadas. Pero la verdadera noticia es que ha estallado un #MeToo en España, otra gota que colma un vaso o un barril. Este se llama #SeAcabó. Hay muchísimas expresiones de esto en prensa y redes sociales, pero intentaré resumirlo para amigas de otros países que me lo han preguntado en varias charlas este fin de semana.

En la ceremonia al recoger el título, el comportamiento del presidente de la Federación Española de Fútbol ha llamado la atención, pero lo que se ha hecho viral ha sido el «beso» que propinó a Jennifer Hermoso, una de las jugadoras (vídeo). Un acto claramente no consentido, cuando ella así lo deja claro en un directo inmediatamente después desde vestuarios, cuando le muestran el vídeo: «No me gustó, mírame ¿qué iba a hacer?».

Horas más tarde, ante la cantidad de comentarios en redes sociales sobre ese acto, Rubiales pide unas disculpas con la boca pequeña en un vídeo grabado desde Doha, en la escala del avión desde Sidney. Luego supimos que había presionado a la jugadora y a su familia para que saliera también en ese vídeo, y que las declaraciones que había difundido la RFEF en un comunicado no eran de Hermoso. El ministro de Cultura y Deporte de España, Miquel Iceta, advirtió el miércoles que si la RFEF no tomaba medidas, lo hará el Consejo Superior de Deportes (CSD).

El gran shock sucedió el viernes, en la asamblea extraordinaria que había convocado la RFEF, ya que la tarde anterior las informaciones de varios medios apuntaban a que Rubiales iba a dimitir. En un discurso que pasará a la historia del machismo en el siglo XXI en España, Rubiales gritó que no iba a dimitir, además de hacer alarde de su poderío en la RFEF, multiplicando el sueldo en directo de directivos, enseñándole a sus hijas lo que era el «verdadero feminismo» (sic) y describiendo el abuso del beso casi como si el acosado fuera él.

Al día siguiente, la FIFA que había abierto un expediente disciplinario suspendió a Rubiales. Isabel Valdés escribió: «Nada, hasta ahora, había podido con Luis Rubiales como presidente de la Real Federación Española de Fútbol: ni las acusaciones de malversación, ni las de cobrar comisiones, ni las denuncias por usar el dinero del organismo deportivo para pagar orgías, ni las de beneficiar a terceros de forma ilegal, ni la reivindicación de las 15 jugadoras el pasado año por las desigualdades y el trato».

Las reacciones, en el país y en todo el mundo, se siguen sucediendo. Por fin ha llegado el #MeToo a España: se llama #SeAcabó. Mamen Hidalgo, que viene contando desde hace meses en Newtral cómo han luchado estas mujeres del fútbol por sus derechos, lo vio claro desde un primer momento: «Esto no va de Rubiales, esto cuestiona toda la institución del fútbol en España».

En estos días no se ha hablado de otra cosa en mis chats. Ese discurso de Rubiales fue absolutamente pedagógico: está concentrado todo el patriarcado en unos minutos. Estas explosiones de feminismo suelen servir para que todas y todos abramos los ojos: unas (¡tantas!) recordando e identificando abusos -siempre vuelve a llamarnos la atención cómo los hemos normalizado. Otros, para preguntar a veces sobre temas feministas, siempre para entender que no hay tolerancia posible a una sociedad enferma.

Unos hechos ante los que se entienden muy claramente las palabras que hemos leído a autoras feministas y que hemos volcado en pancartas en las calles:

  • El consentimiento viciado por una relación de poder no es consentimiento
  • Las agresiones y los abusos no se tratan de sexo ni de deseo, sino de poder.
  • Queremos ser libres, y no valientes
  • No son enfermos, son hijos sanos del patriarcado

El feminismo cuestiona de raíz todas estas instituciones rancias y derechos de pernada: viene a cambiarlo todo. ¿Cómo no van a temer algunos a las feministas?

#seacabó

Disparar al mensajero, o al investigador de discursos de odio en Twitter

El autoproclamado absolutista de la libre expresión, Elon Musk, ha cumplido su amenaza de la semana pasada al Center for Countering Digital Hate (CCDH), y les ha demandado. A este centro de investigadores que publicó estudios sobre el aumento de los discursos de odio en Twitter les echa la culpa de «ahuyentar a sus anunciantes», que han descendido en un 50% desde que llegó él a la dirección.

Pero los cargos son por temas contractuales y por scrapping de datos. Las 23 páginas de la demanda y todo lo que hemos averiguado están publicadas ya en Newtral. Algo curioso, el email de prensa de Twitter, el mismo que decían que estaba automatizado para mandar un emoji de caca [💩], nos ha enviado una respuesta decente.

[Archivo]

Vigilancia de las comunicaciones en la UE

Vigilancia en la UE

¿Quiere Europa poner software espía en cada dispositivo? Dicho así, no. Pero sí quiere vigilar todas nuestras comunicaciones privadas, y eso sólo es posible obligando a los proveedores a poner software que escanee todas nuestros mensajes. Todo es todo: audios, textos, imágenes, fotos. Es otra forma de explicar una ley que puede tener graves consecuencias en nuestros derechos, y que hasta se puede volver en contra de aquello que pretende, prevenir y luchar contra el abuso sexual infantil.

Esto es lo que han advertido cientos de investigadores que han firmado una carta contra la propuesta de la UE para luchar contra el abuso infantil. La tecnología existente es extremadamente deficiente, e imponerla a escala global puede tener efectos colaterales dañinos que pueden incluso afectar la democracia.

“No esperamos que en 10-20 años haya una solución escalable que pueda ejecutarse localmente en el dispositivo del usuario sin filtración de información ilegal, ni que pueda detectarse CSAM de una manera confiable, es decir con un número aceptable de falsos positivos y negativos”. Lo hemos contado esta semana en Newtral.

[Archivo]

Las empresas que quieren supervisar el control de la IA

high rise buildings

No ha sido fácil. En estos días hemos publicado un artículo para el que llevo tres semanas trabajando. He hablado con muchas personas para entender cómo y quiénes están diseñando el futuro de la IA. ¿Qué experiencias se toman en cuenta? ¿Quiénes pagan los sueldos de personas que dedican mucho tiempo y esfuerzo a esto? ¿Cómo participa la sociedad civil en delimitar las líneas de algo que ya está impactando en los más vulnerables? En España la administración del Estado ha licitado el diseño y las futuras líneas que definirán la IA. Desde el Ministerio de Economía se está recomendando un contrato clave en la supervisión de la ética de las compañías que trabajarán con la IA para ser adjudicado a una de las grandes consultoras mundiales y otra asociación poco conocida, pero que también tiene vínculos con grupos que tienen intereses en la IA.

En momentos en que muchas voces se alzan para pedir regulación de la IA en todo el mundo, España es un actor estratégico clave, ya que en esta segunda mitad del año, la presidencia española de la UE es la encargada de cerrar la propuesta de ley de la IA que se viene preparando desde hace 2 años en el Parlamento Europeo. No es de extrañar que las empresas con interés en la IA estén jugando sus cartas.

En Newtral:

Qué empresas están detrás del contrato para supervisar la IA en España [Archivo]
La regulación y la supervisión de la IA, entre los asuntos que marcarán la presidencia española en la UE [Archivo]

Polarización y democracia

Esta semana he estado conversando con María Ramírez, Pablo Simón y Daniel Gascón en «Polarización contra la democracia«, la última de las conversaciones del ciclo Atrévete a pensar, organizado por Penguin Random House y Fundación Telefónica. Una charla a cuatro voces, en la que cabía el Twitter de Musk, mi preocupación por la pérdida de los espacios públicos para debatir, las burbujas de ayer y de hoy y la recomendación de cuidar con quién nos juntamos en los grupos de WhatsApp. Las fotos son de Ricardo Domingo.

Por qué le llaman AGI cuando quieren decir Machine Learning

close up shot of white toy robot on blue and pink background

Hay algo muy disonante en el discurso de los AI people. Hablan de Artificial General Intelligence (AGI) y de conciencia, pero por ahora todo indica que estamos ante funciones estadísticas y machine learning. Quieren ver el fantasma en la máquina pero sólo hay máquina. (¿Serán ellos los fantasmas?). Aunque varias empresas se han lanzado a una carrera para alcanzarla, en el ámbito de la IA no hay consenso en absoluto de cuándo o incluso que alguna vez lleguemos a crear una inteligencia artificial general.

En una conferencia que di este año en Murcia, alguien de la audiencia preguntó si ChatGPT es Inteligencia Artificial de propósito general, alguien que planteaba inquietud ante que estemos alimentando a un monstruo… Y entiendo perfectamente la confusión, porque la narrativa marketinera de OpenAI se basa mucho en ese miedo que tenemos que tenerle a la IA. Por eso ellos, que saben más, están desarrollándola, para beneficio de la humanidad. No lo digo yo, son palabras textuales de su Carta fundacional.

Escribí sobre AGI, IA y ChatGPT y qué tienen y qué no tienen que ver en este artículo para Newtral.

[Archivo]