La lexicografía ha sido tradicionalmente vista como una disciplina anticuaria, dominada por diccionarios impresos e índices en tarjetas polvorientas. Sin embargo, en la era digital, este campo ha experimentado una transformación significativa. El proceso completo de elaboración de diccionarios ha cambiado, desde su creación hasta su consumo por parte de los usuarios finales. Hoy en día, los diccionarios no se «escriben» de la forma tradicional; más bien, se compilan de manera semi-automática a partir de corpus lingüísticos, y su uso casi siempre se realiza a través de sitios web o aplicaciones móviles. Cada vez más, los productos lexicográficos se integran en las interfaces de usuario de otros productos digitales como traductores automáticos, herramientas de escritura y motores de búsqueda.
No obstante, esta transición digital no está exenta de desafíos. Uno de los principales obstáculos es la dependencia excesiva de modelos de datos obsoletos. Históricamente, la estructura de las entradas de los diccionarios se representaba utilizando un modelo jerárquico tipo árbol, donde una entrada consistía en una palabra principal seguida de sus significados y ejemplos. Este modelo, aunque fácil de expresar en XML, complica la representación de elementos más complejos, como referencias cruzadas entre entradas o jerarquías entre padres múltiples de entradas y subentradas. Esto conduce a esquemas XML excesivamente complejos y datos duplicados, haciendo que los diccionarios sean difíciles de manejar computacionalmente.
Aquí es donde entra en juego DMLex (Data Model for Lexicography), desarrollado por el Comité Técnico de LEXIDMA dentro de OASIS. Este grupo de profesionales de IT y lexicografía se unió para crear un modelo de datos estandarizado para los diccionarios que supere estos problemas. DMLex ya ha alcanzado el estatus de Especificación Comunitaria, algo de lo cual los creadores se sienten muy orgullosos.
Anteriormente, los intentos de estandarización se dividían en dos enfoques: formatos de archivo y esquemas XML que utilizaban una estructura jerárquica, o modelos más IT-amigables que representaban los datos lexicográficos como gráficos o redes. Sin embargo, ambos enfoques tenían limitaciones, lo que llevaba a una dicotomía entre las preferencias de los expertos en contenido y los técnicos. DMLex surge para romper esta dicotomía, ofreciendo un modelo que satisface a ambos grupos. Ha incorporado aspectos de estructuras gráficas, inspirado en modelos como Ontolex Lemon y el Marco de Marcado Lexical (LMF), pero ha mantenido una rica variedad de tipos de contenido para representar todo lo necesario en un producto digital.
Una de las características diferenciadoras de DMLex es su esencia como un modelo de datos abstracto. La primera parte de su especificación detalla el modelo de datos en un nivel abstracto, independiente de lenguajes de marcado específicos. La segunda parte propone distintas serializaciones del modelo en XML, JSON, como base de datos relacional (SQL), como triplestore de Semantic Web, y un lenguaje de marcado menos común llamado NVH. Este enfoque lo hace más neutro en cuanto a la implementación y más interoperable que los estándares anteriores.
El desarrollo de DMLex es fruto de un consenso entre lexicógrafos y técnicos de la industria, académicos y empresas de varios países europeos. Esta colaboración no ha sido sencilla, pero el resultado es un modelo que prepara a la lexicografía para el siguiente paso en su evolución digital.
vÃa: Oasis Open News