Cuando una persona realiza cualquier tipo de búsqueda en Google, ya no sólo aparecen links que contienen la frase exacta expresada en la búsqueda, sino contenido relacionado con ese tópico de interés. Científicos chilenos trabajan en alianza con investigadores del mundo en el desarrollo de técnicas que permitirán enriquecer aún más esas búsquedas, encontrando los caminos más cortos de relaciones entre datos aleatorios.

Seguramente ha podido observar que al realizar búsquedas en internet, Google ya no sólo muestra la información que necesita, sino también muchos contenidos relacionados. El llamado “carrusel” de opciones aparece si, por ejemplo, buscamos lugares de interés turístico en Barcelona o datos sobre un actor o actriz de cine, como películas, edad o lugar nacimiento.

¿Cómo logra esto Google? La clave está en una tecnología llamada grafos de conocimiento (https://www.google.com/intl/es/insidesearch/features/search/knowledge.html), un sistema que permite entender las relaciones que se establecen entre cada uno de los miles de millones de datos alojados en internet.

Cada vez que un usuario realiza una búsqueda, los datos quedan albergados en un servidor. Lo mismo ocurre con casi todo lo que compartimos por e-mail, redes sociales o redes móviles. Esta información ha alcanzado tal volumen, que la ciencia de la computación dedica una línea de trabajo al estudio de nuevos modelos que permitan mejorar los sistemas de almacenamiento, relacionamiento de datos y comprensión de ellos.

Para hacer frente a este desafío, cuatro científicos chilenos fueron invitados a sumarse a un equipo internacional de 12 investigadores que, al alero del LDBC Council, tiene como desafío crear un lenguaje de consulta que permita extraer y comprender mejor las relaciones profundas entre los datos. Junto con empresas como IBM, Oracle y Neo4J, trabajaron durante dos años y de allí nació G-Core, un lenguaje de consulta que permite descubrir las relaciones más relevantes entre datos arbitrarios.

“Un dato sólo cobra valor en relación con otro dato”, explica Claudio Gutiérrez, investigador del Instituto Milenio Fundamentos de los Datos en la Universidad de Chile (IMFD), “por lo que su riqueza radica no en la información en sí misma, sino en los vínculos que se pueden descubrir o determinar entre un nodo y otro”, detalla.

“De manera simple, los grafos de conocimiento son una forma de organizar las redes que existen entre los datos y que son, por decirlo de alguna manera, la arquitectura sobre la cual corre Google u otros buscadores y que constituye un nuevo paradigma de gestión de la información que usan hoy las grandes empresas de tecnología”, explica Pablo Barceló, director adjunto del Instituto Fundamentos de los Datos en la U. de Chile.

El recién creado lenguaje de consulta fue presentado por el equipo internacional del cual el IMFD forma parte en la conferencia internacional Sigmod/PODS 2018, una de las más importantes a nivel global en Manejo de los Datos, y que se realizó recientemente en Houston, Estados Unidos.

Gutiérrez explica que este avance podría tener gran impacto en los grafos de conocimiento: “G-Core es el único lenguaje que logra descubrir los caminos más cortos entre un dato y otro, es decir, puede generar información valiosísima para mostrar, por ejemplo, relaciones de poder, de negocios o de comportamiento entre un nodo y otro”, resume, refiriéndose a algunas de sus potenciales aplicaciones en el ámbito de las ciencias sociales. Sin embargo

“puede ser aplicado en cualquier área. Nosotros trabajamos desarrollando los métodos para acceder a la información”, explica.

Son estos métodos los que le permiten a Google inferir, por ejemplo, que en Barcelona algunos atractivos turísticos interesantes de presentar al usuario son el Parque Güell y La Rambla, o las que le permiten mostrarnos las películas, series y otra información disponible sobre una actriz o un actor famoso.

“Construir relaciones semánticas permite que la búsqueda de información sea cada vez más refinada y específica. Quizás muchas personas creen que esos datos se ingresan manualmente a Google, pero no: son el resultado de miles y millones de búsquedas que van siendo validadas en la medida en que se consideran correctas y que se profundiza la investigación, como lo hizo el Instituto Fundamentos de los Datos al participar de la creación de G-Core”.

El instituto espera que este lenguaje se traduzca próximamente en una aplicación que pueda ser usada por profesionales que requieran extraer información desde conjuntos de datos complejos y con alta interrelación.

Precursores en el estudio de los grafos

Los investigadores explican que esta participación en el equipo internacional se sustenta en una relación de larga data con el estudio de los grafos de conocimiento: “hace 12 años que nuestro director, Marcelo Arenas, presentó un paper en la SWC, la conferencia más importante de la web semántica, que luego fue elegido por la misma conferencia la investigación más influyente a través del tiempo, diez años después”, detalló Barceló. “Al día de hoy ha sido citada más de mil veces, un número increíble en un ámbito tan específico como las ciencias de la computación”, finalizó.