QVAC Genesis II desbloquea 148 mil millones de tokens de IA para investigación abierta en IA

2026-03-01 05:07:43

Los datos de Tether han cambiado fundamentalmente la forma en que el mundo accede a recursos de entrenamiento para inteligencia artificial. Al ampliar su conjunto de datos QVAC Genesis II a 148 mil millones de tokens de IA en 19 ámbitos académicos, la iniciativa aborda una brecha estructural en el ecosistema de IA: la mayoría de los datos de entrenamiento avanzados permanecen bloqueados en sistemas propietarios controlados por unas pocas grandes corporaciones. Este lanzamiento posiciona a QVAC Genesis II como el recurso educativo sintético gratuito más grande del planeta, añadiendo 107 mil millones de tokens a Genesis I y democratizando el acceso a fundamentos de entrenamiento de alta calidad.

El momento es crucial. A medida que los sistemas de IA influyen cada vez más en decisiones en educación, finanzas, salud e investigación, la capacidad de entrenar modelos de forma independiente de plataformas en la nube centralizadas se vuelve fundamental. Tether Data aprovechó este momento para lanzar lo que equivale a un bien público: un corpus masivo diseñado no solo para la fluidez, sino para el razonamiento y la explicación.

Base de entrenamiento masiva: cómo 148 mil millones de tokens de IA cambian las reglas

La magnitud de QVAC Genesis II redefine lo que es posible para investigadores que trabajan fuera de ecosistemas cerrados. El conjunto de datos de 148 mil millones de tokens de IA abarca 19 campos académicos estructurados, cada uno cuidadosamente construido para apoyar modelos que necesitan explicar su razonamiento en lugar de simplemente predecir la siguiente palabra. Esta distinción resulta fundamental.

Los conjuntos de datos tradicionales se centran en la fluidez: la capacidad de generar texto plausible. QVAC Genesis II invierte esa prioridad. Cada uno de los 148 mil millones de tokens contribuye a una línea de entrenamiento diseñada para desarrollar claridad en el razonamiento y comprensión causal. Esto significa que los investigadores pueden construir sistemas de IA que muestren su proceso, justifiquen conclusiones y reconozcan incertidumbre en lugar de hablar con confianza injustificada.

La expansión desde Genesis I representa un avance de 107 mil millones de tokens. Esa escala importa no solo por volumen, sino por coherencia. Los modelos entrenados con repositorios de tokens de IA más grandes y cuidadosamente curados logran mayor precisión en el razonamiento y entregan resultados más confiables en diversos ámbitos.

El conjunto de datos sigue siendo completamente abierto a través de Hugging Face, con documentación y herramientas de acceso. Tether Data lo lanzó bajo la licencia Creative Commons Attribution–NonCommercial 4.0, preservando su uso académico y de investigación, además de mantener los requisitos de atribución.

Más allá de la coincidencia de patrones: el razonamiento a nivel de opción revoluciona la calidad del entrenamiento

En el corazón de Genesis II se encuentra un método novedoso de generación de datos llamado Razonamiento a nivel de opción. En lugar de tratar una pregunta de opción múltiple como si tuviera una respuesta correcta, este enfoque evalúa cada opción—respuestas correctas y errores comunes por igual. Cada opción incorrecta se examina para entender por qué falla; cada respuesta correcta, para entender por qué funciona.

Esta metodología se basa directamente en técnicas de análisis de fallos introducidas en Genesis I. Juntas, crean una arquitectura de doble línea de producción que asegura que cada ítem de entrenamiento generado tenga valor instructivo. La técnica obliga a los modelos a involucrarse con la lógica detrás de las decisiones, no solo a memorizar patrones.

Las evaluaciones independientes muestran los beneficios. Los modelos entrenados con datos de Genesis II producen respuestas más claras, mantienen mayor precisión en el razonamiento y demuestran un rendimiento más consistente en tareas variadas. Al reorientar el entrenamiento hacia una comprensión estructurada en lugar de solo fluidez, el Razonamiento a nivel de opción cambia lo que los sistemas de IA pueden hacer de manera confiable.

Rompiendo la centralización: cómo los tokens abiertos de IA permiten investigación distribuida

La misión más amplia de Tether Data se alinea con una convicción creciente: el desarrollo descentralizado de IA representa el futuro del campo. La mayoría del entrenamiento de modelos hoy depende de infraestructura en la nube controlada por unos pocos gigantes tecnológicos. Esto crea barreras estructurales para grupos de investigación más pequeños, instituciones académicas y desarrolladores independientes.

Al ampliar el acceso a 148 mil millones de tokens de IA abiertos, Tether Data elimina un obstáculo importante. Los investigadores ahora pueden entrenar y desplegar modelos sofisticados sin depender de plataformas propietarias o sistemas centralizados. Investigadores locales en mercados emergentes, laboratorios universitarios con recursos limitados y equipos independientes pueden competir en igualdad de condiciones.

Paolo Ardoino, director ejecutivo de Tether, expresó claramente: “La mayor parte del entrenamiento de IA hoy optimiza la fluidez, no la comprensión. Con este lanzamiento, avanzamos más allá del volumen hacia la estructura, el razonamiento y la claridad.” El acceso abierto, enfatizó, proporciona a la comunidad investigadora herramientas para desarrollar sistemas de IA que sigan siendo explicables y confiables.

El documento técnico—QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training—está disponible en el blog de investigación de QVAC, respaldado por preguntas frecuentes detalladas y orientación para su implementación.

A medida que la inteligencia artificial se adentra más en la educación, el descubrimiento científico, los servicios financieros y más allá, conjuntos de datos como estos probablemente determinarán si los sistemas de IA sirven a un poder concentrado o a un conocimiento distribuido. La decisión de Tether Data de liberar 148 mil millones de tokens de IA de forma abierta señala claramente la postura de un actor importante en esa cuestión.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.