Definir qué es una IA Open Source está siendo una pesadilla. Y los puristas no están dispuestos a ceder

Contents

Puristas y empresas, enfrentados La transparencia total es una utopía

La definición de Open Source es clara y está muy bien acotada desde hace años. La definición de IA Open Source, no. Precisamente esa falta de consenso a la hora de saber si una IA es realmente Open Source o no ha provocado cierta polémica, y son muchos los que sacan pecho afirmando que sus modelos son Open Source cuando probablemente no lo son. Meta es el mejor ejemplo de esta situación.

Precisamente eso es lo que trata de resolver la Open Source Initiative (OSI), que es responsable de la definición original del concepto y que ahora está buscando también ofrecer una definición universal y estándar de lo que es la IA Open Source.

El esfuerzo parece estar avanzando, y la OSI ha anunciado la publicación de la primera versión candidata (RC1) de esa definición. En ella se especifican cuatro libertades fundamentales que debe tener un sistema de IA para considerarse como Open Source:

Poder ser usada para cualquier propósito sin permiso
Poder ser estudiada para analizar cómo funciona
Poder ser modificada para cualquier propósito
Poder ser compartida con o sin modificaciones

Puristas y empresas, enfrentados

Esa propuesta de definición, no obstante, también tiene ciertos elementos que también están generando un debate entre los puristas y los defensores de una definición más relajada del concepto.

El Open Source arrasa y vive una época dorada, pero también hay algo de postureo

La OSI ha querido ceder ligeramente en el aspecto de los datos de entrenamiento. Reconocen que no es sencillo para las empresas compartir detalles completos de los conjuntos de datos que han usado para entrenar sus modelos. Eso ha llevado a que en esta RC1 se requiera «información suficientemente detallada sobre los datos usados para entrenar el sistema» en lugar de ofrecer el conjunto de datos completo. El objetivo de la OSI es buscar un equilibrio entre transparencia y consideraciones legales y prácticas.

Para los puristas, no obstante, eso no es suficiente. Para ellos si el sistema de IA no ofrece datos completamente abiertos sobre los datos que usa, entonces los LLM basados en dichos datos no pueden ser considerados Open Source.

Elon Musk publicó en X esta imagen quejándose de que OpenAI debería llamarse ClosedAI. El mensaje ya no está disponible, pero dejó claro que incluso entre empresas con modelos propietarios existe ese debate.

La OSI tiene aquí un argumento potente: si se obliga a los sistemas de IA a dar toda esa información, eso «relegará la IA Open Source a un nicho de sistemas de IA entrenables únicamente con datos abiertos».

La transparencia total es una utopía

Como explicaba Stefano Maffulli, director de la OSI, los datos de entrenamiento se pueden clasificar en cuatro grandes grupos: abiertos, públicos, obtenibles y no compartibles. Para la OSI, «los requisitos legales son diferentes para cada uno de ellos. Todos deben compartirse en la forma en que la ley lo permita». El razonamiento de la OSI es lógico: es difícil compartir los datos, o al menos parte de ellos.

En una entrevista con ZDNet Maffulli indicaba que los puristas del Open Source no son los únicos que están poniendo las cosas difíciles a esa definición de una IA Open Source.

Mark Zuckerberg no para de decir que su modelo de IA es Open Source. Está abusando del término

En el otro extremo tenemos a las empresas, «que consideran sus planes de formación y la forma en que realizan la formación y reúnen y filtran conjuntos de datos y crean conjuntos de datos como secretos comerciales». Para dichas empresas revelar esa información es casi como si le hubiéramos pedido a Microsoft que revelase el código fuente de Windows en los 90.

En esta propuesta de definición la OSI ha integrado dos novedades interesantes frente a los borradores anteriores. La primera, que el modelo debe dar suficiente información para que se entienda cómo se realizó el entrenamiento. Eso permite entre otras cosas crear variaciones («fork») de sistemas de IA.

La segunda, que los creadores pueden exigir explícitamente condiciones de copyleft (propiciar el libre uso y distribución de una obra) para el código, los datos y los parámetros de la IA de código abierto. Eso permitiría por ejemplo obligar a ligar con una licencia copyleft el código de entrenamiento con el conjunto de datos para entrenar el modelo.

La publicación de esta primera versión candidata de la definición es sin duda un paso importante para lograr un consenso en esta singular cuestión, pero es evidente que sigue habiendo cuestiones que pulir. Se espera que la versión 1.0 final de la Open Source AI Definition se anuncie el próximo 28 de octubre en la conferencia All Things Open. Y aún así, será solo eso. Una primera versión.

Imagen | Meta Connect 2024

En Xataka | Ya sabemos lo que paga Apple a OpenAI por usar ChatGPT: cero unidades de euro

Source link

Definir qué es una IA Open Source está siendo una pesadilla. Y los puristas no están dispuestos a ceder

Puristas y empresas, enfrentados

La transparencia total es una utopía

Deja una respuesta Cancelar la respuesta

Últimas Noticias

Noruega vs. Senegal, en vivo por el Mundial 2026: hora, TV y las formaciones

SocialAI es una red social donde tú eres el único humano. En el último experimento digital solo te responde un ejército de bots

mejoran la calidad del vino

Seguir leyendo

Noruega vs. Senegal, en vivo por el Mundial 2026: hora, TV y las formaciones

Murió a los 100 años Alan Greenspan, el expresidente de la Reserva Federal de los Estados Unidos

Preocupación en la selección: Cuti Romero dejó la cancha con hielo en la rodilla y será sometido a estudios

afirman que las negociaciones con Irán en Suiza sientan «una buena base» para un acuerdo

policías y manifestantes chocan en el bastión de Evo Morales

Lionel Messi no se detiene nunca, factura por duplicado y suma como máximo goleador de los mundiales

Realizarán testeos gratuitos de VIH y sífilis sin turno en el Hospital Marcial Quiroga

Tres hombres son clave en el enfoque de Irán hacia las conversaciones con EE.UU.

Se realizará una Colecta Voluntaria de Sangre en el Parque de Mayo

One TV 29.4 TDA