Presumir de que una IA es Open Source va a ser a partir de ahora más complicado. Hasta ahora no había una definición clara de qué diferenciaba a un modelo de IA Open Source uno que no lo era, pero tras varios meses de esfuerzo ya tenemos una buena forma de hacerlo. La Open Source Initiative (OSI), el organismo que trabaja para (entre otras cosas) establecer este tipo de consensos, acaba de publicar la versión 1.0 de esta definición.
OSAID. La llamada Open Source AI Definition (OSAID, por sus siglas en inglés) acaba de ser anunciada. Para llegar a ella la OSI ha tenido en cuenta criterios provenientes tanto de la industria como de entornos académicos e incluso regulatorios.
Recreable. Ese es en esencia el requisito que necesita una IA para ser Open Source. El creador del modelo debe ofrecer información suficiente para que cualquier otra persona pueda recrearlo. Así, el modelo debe ofrecer detalles sobre el conjunto de datos de entrenamiento, incluido su origen, cómo se procesaron los datos y cómo se pueden obtener o licenciar.
Usar, modificar, compartir. Como sucede con el código Open Source, una IA Open Source debe poder usarse libremente, pero también debe poder modificarse o compartirse sin pedir permiso a nadie. Stefano Maffulli, uno de los responsables de la definición, explicaba cómo es importante «poder crear algo sobre esa base», defendiendo así los célebres «forks» o iteraciones de un modelo que lo toman como base para crear otros derivados, como también ocurre con el código.
Meta no está de acuerdo. Según indican en TechCrunch, en Meta no están de acuerdo con esa definición. «No hay una única definición de IA Open Source, y definirla es un reto porque las definiciones previas de Open Source no sirven para las complejidades de los modelos de IA y su rápido avance». Para ellos su modelo Llama es «libre y está disponible abiertamente», y las restricciones que aplican en ciertos casos —sobre todo, si el modelo derivado tiene un éxito importante— están establecidas para «mantener a la gente segura».
¿De dónde has sacado los datos de entrenamiento? Una de las grandes preguntas para quienes desarrollan modelos de IA es precisamente esa, pero la transparencia aquí es casi siempre nula. Lo es desde luego por parte de Meta, pero también de otras como Google, que incluso deja claro que si el contenido es público, potencialmente lo usarán para entrenar sus modelos.
Esto es solo la versión 1.0. Esta definición es como decíamos la versión 1.0, y la idea es que a medida que pase el tiempo evolucione para poder reflejar más los distintos aspectos que rodean a estos desarrollos. Hay por ejemplo cierta polémica por la forma en la que la OSI considera que un modelo de IA puede ser Open Source incluso si los datos usados para entrenarlo puedan no estar libremente disponibles.
¿Y los derechos de autor? La definición permite excluir ciertos datos como parte del conjunto de datos de entrenamiento. En OSI afirman que eso se hace para permitir que datos sensibles y protegidos, como los referidos a la salud, no se compartan en el modelo Open Source. No se abordan los derechos de autor con detalle, y esa es un claro indicio de que aún habrá que trabajar en esta definición.
Imagen | Anthony Quintano
En Xataka | El Open Source arrasa y vive una época dorada, pero también hay algo de postureo