En la última década, hemos sido testigos de una explosión en la investigación de nuevas arquitecturas, métodos de entrenamiento, estrategias de fine-tuning, etc. para el aprendizaje automático (ML). Pero ahora estamos entrando en una nueva fase donde todos estos nuevos enfoques se están convirtiendo en una tecnología común y accesible a todo el mundo sin tener invertir ni mucho tiempo, ni mucho menos mucho dinero en ellas (sólo hay que ver el éxito de plataformas como HuggingFace y su crecimiento exponencial).

Por lo tanto, usar las últimas arquitecturas de ML por sí solo ya no es una ventaja competitiva. En cambio, las empresas necesitan volcar su atención en los datos utilizados para entrenar los modelos de ML. Mejores datos se convierten en “mejor ML”. Tan simple como eso. Y la única forma de evaluar la calidad de los datos es entenderlos. Tanto su estructura subyacente como su proceso de recopilación y anotación.

¡Los datos y los modelos de datos están de moda nuevamente!, gracias a la fiebre de la IA. Pero esto también significa que problemas clásicos como la anotación de datos, la minería de datos, la fusión de datos, la composición de datos, etc., ahora en un contexto de ML, deben ser revisados. Por ejemplo, eñ ML a menudo se basa en fuentes de big data que parecen no responder a ningún esquema. Pero esto no es realmente cierto. A lo sumo, podemos decir que tienen “menos-esquema” que otros datos, y puede que necesitemos inferir primero el modelo implícito detrás de esos datos para poder interpretarlos. Y podríamos descubrir más de un esquema, ya que los datos no siempre son un artefacto estático y tanto ellos como los modelos que los estructuran pueden evolucionar en el tiempo. En estos casos los modelos de datos son más bien una visión parcial, dinámica y temporal de los datos para facilitar la manipulación de esos datos en ese instante específico.

Creo que la relación tripartita que resulta del entrelazamiento de datos, modelos de datos e IA refuerza a cada uno de ellos. Veamos un escenario relevante como ejemplo de cada combinación:

  • Datos + IA -> Modelos. Podemos usar técnicas de IA para inferir los modelos de datos que representan la estructura del conjunto de datos y los modelos de comportamiento que podrían usarse para Crear/Leer/Actualizar/Eliminar instancias del conjunto de datos. Esta es la idea clave detrás de nuestro enfoque de modelado semi-automático en el núcleo de BESSER.
  • Datos + Modelos -> IA. Datos adecuadamente anotados — incluyendo aspectos éticos — pueden mejorar la calidad de los componentes de IA entrenados con dichos datos y prevenir posibles sesgos éticos. O al menos, hacer que los usuarios de datos sean conscientes de las limitaciones de dicho conjunto de datos.
  • IA + Modelos -> Datos. Podemos usar técnicas de IA para sintetizar nuevos datos artificiales /sintéticos compatibles con una cierta estructura. Esto se puede usar para probar los modelos de software. Pero más aún, para generar suficientes datos para entrenar modelos de ML en campos (como el campo de la salud) donde es difícil recopilar datos reales.

Estos escenarios imponen nuevos requisitos para el campo del modelado conceptual. Como hemos visto, en esta nueva era de la IA, los modelos no son un elemento estático en el proceso de desarrollo, sino que se vuelven dinámicos porque a menudo necesitan cambiar y evolucionar para permanecer alineados con los datos (y los desplazamientos de datos). También son parciales (ya que pueden representar solo partes de los datos) e inciertos (ya que no podemos estar completamente seguros de cuán precisos son, por ejemplo, cuando se infieren automáticamente). Pero a pesar de estos desafíos, los modelos conceptuales siguen siendo un activo clave. Un buen ejemplo de esto es la promoción de los espacios comunes de datos europeos para facilitar el intercambio de datos entre socios dentro de un dominio. Este intercambio requiere que los socios acuerden un modelo de datos conceptual unificado para garantizar la interoperabilidad. Por todo esto, no es sorpresa que lenguajes de modelado como el lenguaje de Entidad/Relación estén experimentando un renacimiento.

Y no olvidemos, ¡los modelos de ML también son modelos!

Everything is a model – Jean Bézivin (Sobre el poder de unificación de los modelos)

Esto significa que la comunidad de modelado conceptual tiene la oportunidad de aportar su experiencia al mundo de la IA, ayudando a la comunidad de IA a mejorar la forma en que representan, transforman, reutilizan y despliegan artefactos de ML. Espero con interés ver cómo podemos llevar la ingeniería basada en IA a un nivel completamente nuevo gracias a nuestras décadas de experiencia en modelado conceptual.

Esta reflexión fue de la discusión del panel Ingeniería de Software Impulsada por IA – El Rol del Modelado Conceptual que tuvimos en ICSOFT 2023. El panel fue coordinado por Hans-Georg Fill y tuve como lotros panelistas a Wolfgang Maass y Marten Van Sinderen.