Contribuciones open source e investigación
SDialog es un toolkit de simulación y evaluación de diálogos con LLMs, desarrollado por el Idiap Research Institute como parte del proyecto JSALT 2025.
Mientras generaba más de 150 sesiones de terapia simulada en español con SDialog, descubrí que los caracteres especiales del español se escapaban como secuencias Unicode (por ejemplo, \u00e9 en lugar de é), haciendo los archivos de salida ilegibles para inspección manual.
Agregué un parámetro ensure_ascii a la función json() para controlar la codificación de caracteres, y un parámetro human_readable al método to_file() para JSON con formato legible. También actualicé la escritura de archivos para usar codificación UTF-8.
Realicé un análisis de tokens demostrando que JSON minificado en UTF-8 usa 432 tokens vs 508 tokens del JSON con caracteres escapados — una reducción significativa al enviar múltiples archivos de diálogo a LLMs.
El PR fue revisado por Sergio Burdisso (mantenedor del proyecto), quien sugirió renombrar el parámetro human_readable a ensure_ascii para consistencia con la API de json.dump() de Python. Acepté el feedback, actualicé el código, y el PR fue mergeado exitosamente.