El gran scraping de la web de las IA generativas: ¿fair use o robo a los creadores?

Fair use AI scraping

Los grandes modelos de lenguaje como ChatGPT o Stable Diffusion han sido posibles gracias a la extracción masiva de datos de la web pública. Varias demandas de los creadores de contenido se basan en el derecho de autor, mientras las empresas de IA argumentan que hay fair use, uso legítimo.

El scraping es una parte de la minería de datos, avalada por las leyes europeas, pero con excepciones. Hay muchas cosas a definir para saber si el movimiento de las empresas de IA al entrenar sus modelos con media web puede ganar las demandas. Entre ellas, dirimir si una IA «copia» o «lee», si «aprende» o «reproduce».

“Si un redactor del Wall Street Journal leyera artículos del New York Times sobre un tema y luego escribiera su propio artículo, siempre que sólo copiara hechos e información pero no la expresión, no habría violación de los derechos de autor. Entonces, ¿por qué habría una infracción en el caso de la IA?”, le leí esto a Jeremy Paul y enseguida lo contacté para que me explicase por qué entonces el New York Times está evaluando demandar también a OpenAI y por qué estos cerraron un acuerdo con Associated Press.

David Maeztu me dijo que si existe reproducción (copia de la obra en un soporte que permita la obtención de copias) no se puede copiar sin autorización del autor, así que sólo quedaba hablar un desarrollador que me explicase si en el entrenamiento o en el scraping hay copia o no. El resultado es este reportaje sobre el dilema del fair use en relación con la IA que hemos publicado en Newtral, y este artículo sobre el scraping y cuándo es legal.

[Archive]

Disparar al mensajero, o al investigador de discursos de odio en Twitter

El autoproclamado absolutista de la libre expresión, Elon Musk, ha cumplido su amenaza de la semana pasada al Center for Countering Digital Hate (CCDH), y les ha demandado. A este centro de investigadores que publicó estudios sobre el aumento de los discursos de odio en Twitter les echa la culpa de «ahuyentar a sus anunciantes», que han descendido en un 50% desde que llegó él a la dirección.

Pero los cargos son por temas contractuales y por scrapping de datos. Las 23 páginas de la demanda y todo lo que hemos averiguado están publicadas ya en Newtral. Algo curioso, el email de prensa de Twitter, el mismo que decían que estaba automatizado para mandar un emoji de caca [💩], nos ha enviado una respuesta decente.

[Archivo]

A días del cierre de la API pública de Twitter

Estamos a pocos días del cierre de la API de Twitter, lo que puede ser una catástrofe. Hay muchos afectados: aplicaciones de interés público, herramientas contra el acoso o que detectan contenidos tóxicos, investigaciones sobre la desinformación, bots de utilidades (como los que ayudan a leer hilos o colorean imágenes). Miles de desarrollos y herramientas hechas por la sociedad civil e investigadores que estudian la desinformación en redes sociales e intentan revertir los contenidos tóxicos de esta plataforma están a punto de quedar inhabilitadas. Y en España sucede en pleno año electoral.

El anuncio llegó hace una semana, con este tuit, sin más detalles, sin dar precios, y sin tiempo para que muchos equipos actualicen herramientas o preparen una adaptación

Starting February 9, we will no longer support free access to the Twitter API, both v2 and v1.1. A paid basic tier will be available instead 🧵— Twitter Dev (@TwitterDev) February 2, 2023

Twitter no revela públicamente el precio de sus planes premium de API, aunque en febrero del año pasado se informó que las tarifas comienzan a partir de 99 USD/mes por 100 consultas a la API.

La página dejó de estar está disponible en abierto un día antes del primer plazo anunciado, que era hoy, aunque luego se aplazó hasta el día 13 de febrero, según anunciaron con otro tuit.

La Ley de Servicios Digitales (DSA) que prevé el acceso de los investigadores a los datos de estas plataformas debería normalizar la situación en Europa en los próximos meses, y si Twitter sigue adelante con la medida podría estar infringiéndola. En Estados Unidos se han presentado proyectos de ley con requerimientos similares.

Twitter actualmente es la principal fuente de datos para investigar cómo funciona la propagación de la desinformación online. Otras grandes plataformas tienen APIs comerciales cerradas o no dan los datos fácilmente aunque sea para investigación. En los últimos años, el esfuerzo de equipos de académicos, periodistas, desarrolladores y otros participantes de la sociedad civil han creado cientos de herramientas para luchar contra la toxicidad y la desinformación en Twitter. La mayoría de ellas no funcionarán más.

En Newtral: El cierre de la API de Twitter amenaza la lucha contra la desinformación, el acoso y los contenidos tóxicos

[Archivo]

Foto: Elon Musk compra Twitter (autor: Vaighns con Midjourney)

Cómo hacer un deepfake nivel engañar a 5 alcaldes

Deepfake Felipe González

Cuando leí sobre el caso del impostor que había mantenido una llamada con el alcalde de Madrid me pregunté si estábamos ya al nivel en deepfakes como para engañar a 5 alcaldes europeos en tiempo real.

Como muchas veces, parece que el entusiasmo por la tecnología nos hace olvidar que la ingeniería social y la psicología son muy efectivas. Hablé con la alcaldía de Madrid para entender qué ha pasado, y con mi experto favorito en deepfakes para saber cómo se podría haber hecho. El momentazo fue cuando en vez de él, apareció el expresidente Felipe González en la videollamada. Evidentemente era una prueba para mostrarme en la práctica cómo funciona la tecnología. Lo he contado todo aquí para Newtral.

[Archivo]

Crear criptomonedas

A día de hoy hay casi 20.000 criptomonedas. Cuando te preguntas por qué tantas, la siguiente duda es cómo se crean. Y las dos preguntas están relacionadas: hay muchas porque es fácil crearlas. Pero parece que lo complicado es lo siguiente, listarlas.

Los mejores exchanges cobran por eso, y estas tarifas pueden ir de 100.000 hasta 1 o 2 millones de euros. Estas tarifas no están publicadas y los acuerdos suelen estar bajo acuerdos de confidencialidad. He hablado con dos directores ejecutivos de empresas que han creado criptomonedas que hoy están a la venta en exchanges: Koh Onozawa, de Bit2Me y Fran Villalba Segarra, de Internxt. Lo hemos publicado todo hoy en Newtral.

Cómo se crean las criptomonedas [Archivo]

Las nuevas leyes europeas de internet ya están aquí

Periodistas trabajando en la sala de prensa en Estrasburgo

Europa ha logrado ponerse de acuerdo y sacar adelante en poco más de un año dos grandes leyes que cambiarán mucho la forma en que usamos internet: la Digital Services Act (DSA) y la Digital Market Act (DMA). El movimiento es histórico y pionero: son las normativas más avanzadas que pueden poner un límite al poder hasta ahora casi ilimitado que tenían las grandes tecnológicas, como Amazon, Facebook, Google, Apple.

Una pandemia, el gran salto de digitalización que eso provocó, una infodemia mundial, y una guerra han sido el contexto que ha acelerado el consenso en torno a la necesidad que tenemos de garantizar los derechos fundamentales de quienes usamos internet.

Estuve en el Parlamento Europeo en Estrasburgo para el Pleno pasado, junto con un pequeño grupo de periodistas que se dedican a temas de desinformación, donde pudimos conversar y preguntar a varios eurodiputados involucrados en la negociación de estas leyes. Dos artículos que escribí donde cuento las claves de estas normativas:

DSA y DMA: Las grandes leyes que regularán las plataformas digitales en Europa echan a andar [Archivo]

Digital Services Act: claves de la gran ley europea para las plataformas de internet [Archivo]

Foto: Periodistas trabajando en la sala de prensa del Parlamento Europeo en Estrasburgo.

Siete servidores españoles con trazas de Pegasus

Pedro Sánchez, mandatario espiado por Pegasus, mira su móvil | PSOE

En 2018 Amnistía publicó una lista de dominios maliciosos que estaban relacionados con Pegasus. Siete de ellos se localizaban en servidores en España. Se podría haber seguido la pista, claro. Pero nadie lo investigó. He preguntado a la Audiencia Nacional, al Consejo General del Poder Judicial, al Ministerio del Interior.

Amnistía también nos dice que ninguna institución española les ha contactado con respecto a eso. Los dominios tenían indicadores de compromiso de Pegasus, como determinó la investigación de Amnistía. Cuatro años después, las únicas investigaciones son las de cargos del gobierno y del ámbito catalán. ¿Quién investiga el resto esos 1.483 prefijos españoles infectados? Esta semana hemos publicado esta historia. Por cierto, me ha parecido que no hay muchas fotos de Pedro Sánchez hablando en su móvil.

[Archivo]