La IA en la generación del artículo científico

Para comprender cabalmente las implicaciones del uso de inteligencia artificial en la escritura científica, resulta indispensable situar el debate en su contexto histórico. No estamos ante una herramienta estática, sino ante una tecnología que ha experimentado una evolución exponencial en un período extraordinariamente breve. La velocidad de este progreso —y sus implicaciones para la práctica científica— justifican que dediquemos espacio a establecer desde dónde arrancamos.

1. La aceleración exponencial: de 117 millones a 1 billón de parámetros

En junio de 2018, OpenAI publicó GPT-1, un modelo de lenguaje con 117 millones de parámetros entrenado sobre un corpus relativamente modesto [1]. Este modelo podía completar oraciones con cierta coherencia, pero sus capacidades eran limitadas y su utilidad práctica para tareas complejas, cuestionable. Solo un año después, en febrero de 2019, GPT-2 amplió la escala a 1.5 mil millones de parámetros, demostrando por primera vez que el escalamiento podía producir saltos cualitativos en las capacidades lingüísticas [2]. El modelo generaba texto sorprendentemente fluido, aunque aún inconsistente y propenso a errores.

El salto verdaderamente disruptivo llegó en junio de 2020 con GPT-3 y sus 175 mil millones de parámetros —un aumento de más de 100 veces respecto a GPT-2 [3]. Por primera vez, un modelo de lenguaje podía realizar tareas sofisticadas sin entrenamiento específico, mediante lo que se conoce como “aprendizaje en contexto” o few-shot learning. Podía escribir código funcional, traducir entre idiomas con precisión razonable, resumir documentos complejos, y mantener conversaciones coherentes. En marzo de 2023, GPT-4 introdujo capacidades multimodales (procesamiento de imágenes además de texto) y se estima que alcanzó aproximadamente 1 billón de parámetros, aunque OpenAI no ha divulgado detalles arquitectónicos precisos [4].

Esta progresión —117 millones, 1.5 mil millones, 175 mil millones, ~1 billón— representa un crecimiento de casi 8,500 veces en apenas cinco años. Para contextualizar: es como si en 2018 hubiéramos tenido un procesador capaz de realizar 117 operaciones por segundo, y en 2023 tuviéramos uno capaz de realizar un millón de operaciones por segundo. No es una mejora incremental; es un cambio de orden de magnitud que transforma cualitativamente lo que la tecnología puede hacer.

El Stanford AI Index: midiendo el progreso de la IA

El Stanford Institute for Human-Centered Artificial Intelligence publica anualmente el AI Index Report, reconocido como la fuente más comprehensiva y rigurosa de datos sobre el progreso de la inteligencia artificial [5]. El reporte de 2024 —el más extenso hasta la fecha con más de 500 páginas— documenta tendencias que van desde el rendimiento técnico hasta el impacto económico, pasando por la regulación y la percepción pública de la IA.

Uno de los hallazgos más significativos del AI Index 2024 concierne a la evolución del desempeño en benchmarks estandarizados. El benchmark MMLU (Massive Multitask Language Understanding), introducido en 2020, se ha convertido en el estándar de facto para medir el conocimiento general de los modelos de lenguaje [6]. MMLU consiste en 15,908 preguntas de opción múltiple que abarcan 57 disciplinas distintas, desde matemáticas avanzadas y derecho internacional hasta medicina, historia estadounidense y ciencias de la computación. El benchmark fue diseñado intencionalmente para ser más desafiante que sus predecesores, con la expectativa de que los expertos humanos en cada dominio alcancen aproximadamente 89.8% de precisión.

Cuando MMLU fue lanzado en septiembre de 2020, la mayoría de los modelos de lenguaje obtenían puntuaciones cercanas al azar (25%, correspondiente a adivinar aleatoriamente entre cuatro opciones). El modelo más avanzado entonces disponible, GPT-3 175B, alcanzó 43.9% de precisión —sustancialmente mejor que el azar, pero muy por debajo del nivel humano experto. En 2024, apenas cuatro años después, modelos como Claude 3.5 Sonnet, GPT-4o, y Llama 3.1 405B consistentemente superan el 88% de precisión, rozando el nivel de rendimiento humano experto. Este progreso de 43.9% a 88% en cuatro años representa una tasa de mejora sin precedentes en la historia de la inteligencia artificial.

El AI Index 2024 documenta además que, en 2023, la industria produjo 51 modelos de lenguaje notables, comparado con apenas 15 de la academia. Esta tendencia refleja un cambio fundamental: el desarrollo de modelos avanzados se ha vuelto tan costoso (el entrenamiento de GPT-4 se estima en ~78 millones de dólares, y Gemini Ultra de Google en ~191 millones) que efectivamente excluye a las universidades [7]. La frontera de la investigación se ha desplazado de la academia a las grandes corporaciones tecnológicas, con implicaciones profundas para la gobernanza, el acceso, y la dirección futura del campo.

Otros indicadores del AI Index 2024 incluyen: la inteligencia artificial ha comenzado a superar el desempeño humano en tareas específicas como clasificación de imágenes y razonamiento visual, aunque sigue rezagada en tareas que requieren razonamiento de sentido común, matemáticas de nivel competitivo, o planificación compleja; la inversión en IA generativa se octuplicó entre 2022 y 2023 alcanzando 25.2 mil millones de dólares; estudios múltiples demuestran que la IA permite a los trabajadores completar tareas más rápidamente y con mayor calidad, particularmente reduciendo la brecha de habilidades entre trabajadores de alto y bajo rendimiento [8]; y el número de regulaciones relacionadas con IA en Estados Unidos aumentó 56.3% en un solo año, reflejando la creciente preocupación gubernamental por los riesgos asociados.

Desde dónde arrancamos: el estado actual de la IA para científicos

Al momento de escribir estas líneas (febrero de 2026), nos encontramos en un punto de inflexión. Los modelos de lenguaje grandes disponibles comercialmente —Claude, GPT-4, Gemini, entre otros— han alcanzado un nivel de competencia lingüística que los hace útiles para una variedad de tareas que anteriormente requerían intervención humana exclusiva. Pueden resumir literatura científica con precisión razonable, sugerir formulaciones alternativas para argumentos complejos, identificar inconsistencias lógicas en borradores, traducir entre idiomas manteniendo precisión técnica, generar código para análisis estadísticos, y asistir en la estructuración de manuscritos según formatos estándares.

Sin embargo, estos sistemas también exhiben limitaciones importantes que todo científico debe comprender antes de incorporarlos a su flujo de trabajo: los modelos “alucinan” —es decir, generan información falsa con confianza aparente— en aproximadamente 15-20% de sus respuestas según diferentes benchmarks [9]; carecen de acceso actualizado a la literatura más reciente salvo que se les proporcione explícitamente; no comprenden verdaderamente el contenido que procesan, operando mediante asociaciones estadísticas de patrones lingüísticos; pueden reproducir y amplificar sesgos presentes en sus datos de entrenamiento; y su rendimiento varía significativamente según el dominio, siendo generalmente más confiables en áreas bien representadas en internet (como programación o medicina general) que en especialidades nicho o emergentes.

Esta combinación de capacidades impresionantes y limitaciones serias define el contexto en el que debemos evaluar el uso de IA en la escritura científica. No estamos ante una herramienta infalible que puede reemplazar el juicio experto, pero tampoco ante un mero procesador de texto marginalmente más sofisticado. Estamos ante sistemas que ocupan un espacio intermedio complejo: suficientemente capaces para ser útiles, suficientemente falibles para requerir supervisión constante, y en evolución suficientemente rápida para que cualquier evaluación actual pueda quedar obsoleta en meses.

Es desde este punto de partida —sistemas poderosos pero imperfectos, en rápida evolución, con costos económicos y epistémicos no completamente comprendidos— que debemos abordar la cuestión del uso de IA en la generación del artículo científico.

2. No todas las ciencias son iguales

Antes de adentrarnos en las posibilidades que ofrece la inteligencia artificial para la escritura científica, resulta imperativo establecer una distinción fundamental: el modelo de asistencia que requiere un investigador varía sustancialmente según la naturaleza epistémica de su disciplina. No es lo mismo escribir un artículo de sociología que uno de medicina molecular o uno de matemáticas, y esta diferencia no se limita únicamente a las convenciones de formato o estilo —que por supuesto existen y son relevantes— sino que se extiende a la naturaleza misma de la asistencia que la IA puede proporcionar de manera útil y responsable.

En las ciencias sociales y humanidades, la escritura científica implica frecuentemente la construcción de argumentos interpretativos, el análisis de discursos, la contextualización histórica o la discusión teórica. Aquí, la IA puede funcionar como interlocutor crítico, como generador de contraargumentos, como asistente en la síntesis de literatura diversa. En cambio, en las ciencias biomédicas, el investigador necesita a menudo asistencia con la precisión terminológica, la verificación de protocolos metodológicos, la estructuración de resultados experimentales según estándares internacionales como CONSORT o PRISMA [10]. En matemáticas, por su parte, la asistencia puede requerirse para la formalización de demostraciones, la verificación de pasos lógicos, o incluso para la traducción entre notaciones formales, aunque la naturaleza misma de la demostración matemática impone límites claros a lo que la IA puede hacer sin supervisión experta.

Esta diferenciación no es meramente académica: determina qué funcionalidades de la IA serán relevantes, qué riesgos se corren al utilizarla, y qué competencias debe mantener el investigador para usar estas herramientas de manera productiva y ética.

3. Los tres niveles del uso de IA

Usar IA: la decisión inicial

La primera pregunta no es técnica sino conceptual y ética: ¿debo usar IA en mi proceso de escritura científica? Esta decisión implica comprender qué significa incorporar estas herramientas en el flujo de trabajo académico. Usar IA no equivale necesariamente a que “la IA escriba el artículo”, sino que puede abarcar un espectro que va desde la corrección ortográfica asistida hasta la generación de borradores completos de secciones específicas.

Es crucial reconocer que usar IA implica aceptar una forma particular de mediación tecnológica en el proceso creativo e intelectual. A diferencia del procesador de textos, que es un medio relativamente neutral, o del corrector ortográfico, que opera sobre reglas explícitas, los modelos de lenguaje grandes introducen un componente de “inteligencia” estadística que puede influir en la forma, el contenido y hasta en las ideas del texto resultante. El investigador debe preguntarse: ¿estoy dispuesto a que mis formulaciones estén potencialmente influenciadas por los patrones estadísticos de millones de textos previos? ¿Cómo mantendré mi voz y mi pensamiento crítico en este proceso?

Cómo usar la IA: niveles de sofisticación técnica

Una vez decidido el uso de IA, se presenta la cuestión del cómo. Aquí identificamos dos aproximaciones principales que difieren sustancialmente en sus capacidades y en el control que otorgan al usuario:

El modo usuario simple (interfaz de navegador): La mayoría de los investigadores acceden a herramientas como ChatGPT, Claude, Gemini u otras a través de interfaces web conversacionales. Este modo es accesible, intuitivo, y no requiere conocimientos de programación. Sin embargo, opera bajo limitaciones importantes: las conversaciones son efímeras o difíciles de documentar sistemáticamente, la reproducibilidad de los resultados es limitada, y la integración con otros flujos de trabajo es manual y propensa a errores. El investigador interactúa pregunta a pregunta, respuesta a respuesta, sin posibilidad de automatizar procesos repetitivos o de crear flujos de trabajo complejos.

El modo científico (acceso vía API): Las interfaces de programación de aplicaciones (APIs) permiten un nivel de control y sofisticación cualitativamente diferente. Un investigador con conocimientos básicos de programación —o en colaboración con un especialista— puede diseñar flujos de trabajo personalizados: procesar sistemáticamente múltiples borradores de un mismo párrafo con diferentes instrucciones, integrar la IA con gestores de referencias bibliográficas, crear plantillas específicas para diferentes secciones del artículo, documentar exhaustivamente cada intervención de la IA, e incluso implementar sistemas de verificación cruzada. Este modo permite además la reproducibilidad: el mismo código con los mismos parámetros debería producir resultados similares, lo cual es fundamental para la transparencia científica.

La elección entre estos modos no es meramente técnica: refleja también el nivel de control, documentación y reproducibilidad que el investigador considera necesario para mantener la integridad de su proceso de escritura.

Para qué usar la IA: funciones y límites

El tercer nivel de diferenciación concierne a las aplicaciones específicas de la IA en el proceso de escritura científica. No todas las funciones son igualmente apropiadas, y cada una conlleva consideraciones específicas:

Funciones de bajo riesgo epistémico: Incluyen la corrección gramatical y estilística, la reformulación de oraciones para mayor claridad, la traducción entre idiomas (con verificación posterior), o la generación de resúmenes de textos propios ya escritos. Estas funciones operan sobre contenido ya generado por el investigador y, aunque pueden introducir sesgos, no comprometen fundamentalmente la autoría intelectual.

Funciones de riesgo medio: La generación de primeros borradores de secciones metodológicas estandarizadas, la asistencia en la estructuración de argumentos, la identificación de lagunas en la revisión de literatura, o la sugerencia de contraargumentos. Aquí, la IA comienza a influir en el contenido intelectual, aunque el investigador mantiene control editorial significativo.

Funciones de alto riesgo epistémico: La generación de interpretaciones de datos, la formulación de conclusiones, la escritura de secciones teóricas completas, o la generación de contenido que requiere juicio experto específico de la disciplina. En estos casos, el riesgo de introducir errores, sesgos, o contenido estadísticamente plausible pero intelectualmente vacuo es máximo.

La pregunta “para qué” debe responderse siempre en función de la disciplina específica, el tipo de contribución intelectual que se está realizando, y las normas éticas y de transparencia de la comunidad científica relevante.

4. El horizonte próximo: IA local y modelos propios

Hasta ahora hemos asumido implícitamente que el investigador accede a la IA de manera remota, ya sea a través de interfaces web o mediante APIs que se conectan a servidores en la nube operados por empresas como OpenAI, Anthropic o Google. Esta ha sido la forma dominante de uso en el período 2022-2025, y continuará siendo relevante por razones que exploraremos. Sin embargo, se aproxima —y en algunos contextos ya ha llegado— una nueva etapa que introduce posibilidades y complejidades adicionales: la ejecución de modelos de IA en modo local, y el entrenamiento o adaptación de modelos especializados para dominios científicos específicos.

IA remota vs IA local: un análisis comparativo

El modelo remoto (cloud-based), que ha dominado hasta ahora, presenta ventajas claras: acceso inmediato sin inversión en hardware, actualización automática a las versiones más recientes de los modelos, capacidad de procesamiento virtualmente ilimitada, y simplicidad operacional. El investigador abre una página web o hace una llamada a una API, y obtiene respuestas generadas por modelos que pueden tener cientos de miles de millones de parámetros, entrenados con recursos computacionales que superan los cien millones de dólares. Desde el punto de vista del usuario final, la barrera de entrada es mínima.

Sin embargo, este modelo conlleva costos que no son puramente monetarios. Cada consulta enviada a un servicio remoto implica la transmisión de datos potencialmente sensibles a servidores de terceros. Para un investigador trabajando con datos médicos de pacientes, documentos legales confidenciales, o información corporativa propietaria, esta externalización puede ser inaceptable desde el punto de vista ético, legal, o contractual. Además, el modelo remoto introduce dependencia de la conectividad a internet, vulnerabilidad a interrupciones del servicio, y sujeción a las políticas de uso y precios establecidos unilateralmente por los proveedores. Un investigador cuyo flujo de trabajo depende de una API comercial está a merced de cambios en las tarifas, modificaciones en los términos de servicio, o incluso la discontinuación del servicio.

El modelo local, que ha madurado significativamente en 2024-2025, ofrece una alternativa fundamentalmente distinta. Consiste en ejecutar modelos de lenguaje directamente en el hardware del investigador —típicamente en una estación de trabajo equipada con una o más GPUs potentes, o en servidores institucionales. Esta aproximación garantiza privacidad absoluta (los datos nunca salen del control del investigador), independencia de servicios externos, ausencia de costos recurrentes una vez realizada la inversión inicial en hardware, y control total sobre la configuración y comportamiento del modelo.

Los modelos open-weight más destacados actualmente disponibles para ejecución local incluyen:

Llama 3.1/3.3 (Meta): Disponible en versiones de 8B, 70B y 405B parámetros [11]. La versión 8B puede ejecutarse en GPUs con 8-12GB de VRAM, mientras que la versión 70B requiere aproximadamente 24GB con cuantización de 4 bits, o configuraciones multi-GPU para ejecución a precisión completa.
Mistral Small 3 (24B parámetros): Representa, según múltiples análisis de 2025, el “punto óptimo” para investigadores con hardware de gama media-alta. Con cuantización Q4, ocupa ~14-15GB de VRAM y ofrece rendimiento comparable a GPT-4 en muchas tareas, especialmente en generación de código y análisis técnico.
Qwen 2.5 Coder: Familia de modelos especializados en tareas de programación y razonamiento técnico, disponibles en variantes de 14B y 32B parámetros. Particularmente relevante para investigadores que necesitan asistencia con análisis de datos, scripting, o automatización de flujos de trabajo.
DeepSeek-R1: Aunque el modelo completo (671B parámetros) requiere infraestructura de datacenter, las versiones destiladas son apropiadas para despliegue local y han mostrado capacidades impresionantes en razonamiento estructurado [12].

La viabilidad de la IA local depende críticamente del hardware disponible. Una configuración básica para experimentación con modelos de 7-8B parámetros requiere aproximadamente:

GPU con 8-12GB de VRAM (ej: NVIDIA RTX 4060 Ti, RTX 3060)
32GB de RAM del sistema
Procesador de gama media (Intel i5/i7 o AMD Ryzen 5/7)
1TB de almacenamiento SSD
Costo total estimado: $1,200-1,800 USD

Para trabajo profesional con modelos más grandes (13-70B parámetros), se recomienda:

GPU con 24GB de VRAM (ej: RTX 4090, RTX 3090)
64GB de RAM del sistema
Procesador de gama alta (Intel i7/i9 o AMD Ryzen 7/9)
2TB de almacenamiento SSD
Costo total estimado: $2,500-3,500 USD

Para modelos de más de 70B parámetros o para configuraciones de investigación avanzada:

GPU con 48GB+ de VRAM (ej: RTX 6000 Ada, A6000) o configuraciones multi-GPU
128GB+ de RAM del sistema
Costo total estimado: $8,000-15,000 USD

Herramientas como Ollama, LM Studio, y llama.cpp han simplificado dramáticamente el proceso de despliegue local, reduciendo la barrera técnica de entrada. Un investigador con conocimientos básicos de línea de comandos puede tener un modelo de 7B parámetros ejecutándose localmente en cuestión de minutos.

Es crucial comprender que la cuantización —técnica que reduce la precisión numérica de los pesos del modelo de 16 bits a 8, 4, o incluso menos bits— es lo que hace viable la ejecución local [13]. Un modelo de 70B parámetros en precisión completa (FP16) requeriría aproximadamente 140GB de VRAM, hardware accesible solo en datacenters. Cuantizado a 4 bits (formato Q4_K_M), el mismo modelo cabe en ~40-45GB, haciéndolo ejecutable en una GPU de consumidor de gama alta o en una configuración de dos GPUs de 24GB. La pérdida de calidad introducida por la cuantización es típicamente menor, especialmente con técnicas modernas como GPTQ o los formatos GGUF que optimizan qué bits preservar.

La métrica de rendimiento relevante para uso interactivo es la velocidad de generación de tokens, medida en tokens por segundo. Para que la experiencia sea fluida, se requieren al menos 15-20 tokens/segundo. Con hardware apropiado, modelos de 7-8B alcanzan 50-100 tokens/segundo, mientras que modelos de 70B con cuantización Q4 en una RTX 4090 alcanzan 30-50 tokens/segundo —perfectamente usable para trabajo productivo.

Formación de modelos propios: fine-tuning y especialización de dominio

Más allá de elegir entre modelos remotos o locales preexistentes, emerge una tercera posibilidad particularmente relevante para la investigación científica: la adaptación o entrenamiento de modelos especializados para dominios específicos. Esta aproximación, conocida como fine-tuning (ajuste fino), parte de un modelo fundacional preentrenado y lo adapta mediante entrenamiento adicional sobre un corpus específico de la disciplina [14].

El fine-tuning ha demostrado ser transformador en campos científicos. Un modelo de lenguaje general puede tener conocimientos amplios pero superficiales sobre, digamos, cristalografía de proteínas, derecho ambiental comparado, o teoría de números algebraicos. Un modelo fine-tuned sobre literatura especializada de ese dominio desarrolla una “comprensión” (en términos estadísticos) mucho más profunda del vocabulario técnico, las convenciones de argumentación, los formalismos matemáticos, y el contexto histórico del campo.

Tipos de fine-tuning relevantes para investigación científica

Continued Pre-training (CPT): El modelo se expone a grandes volúmenes de texto no etiquetado del dominio objetivo. Por ejemplo, todos los artículos de PubMed en una subespecialidad médica, o todos los casos judiciales de una jurisdicción específica. Este proceso actualiza el conocimiento factual del modelo y lo familiariza con patrones lingüísticos específicos del dominio.

Supervised Fine-Tuning (SFT): El modelo se entrena sobre pares de entrada-salida específicamente diseñados. Por ejemplo, preguntas sobre química orgánica y sus respuestas correctas detalladas, o fragmentos de código y su documentación apropiada. Este método enseña al modelo qué tipo de respuestas son apropiadas para qué tipo de consultas en el contexto específico.

Instruction Tuning: Una forma especializada de SFT donde el modelo aprende a seguir instrucciones complejas formuladas en lenguaje natural. Particularmente útil para tareas como “Resume estos resultados experimentales siguiendo el formato CONSORT” o “Identifica las suposiciones implícitas en este argumento teórico.”

Parameter-Efficient Fine-Tuning (PEFT): Técnicas como LoRA (Low-Rank Adaptation) o QLoRA (Quantized LoRA) que modifican solo una fracción pequeña de los parámetros del modelo, reduciendo dramáticamente los requisitos computacionales [15]. En lugar de reentrenar los 70 mil millones de parámetros de un modelo completo —lo cual requeriría múltiples GPUs de datacenter durante días— LoRA entrena adapters de quizás 100-500 millones de parámetros adicionales, factible en una sola GPU de 24GB en horas o días.

Casos de uso en investigación científica

El Stanford AI Index 2024 documenta el creciente impacto de la IA en medicina y ciencias, con múltiples ejemplos de modelos fine-tuned superando a modelos generales:

Medicina: Modelos como Med-PaLM (Google) o BioGPT han sido fine-tuned específicamente sobre literatura médica y han demostrado capacidad para responder preguntas de exámenes médicos a nivel de especialista, asistir en diagnóstico diferencial, y generar resúmenes de historias clínicas [16].
Ciencias de materiales: Investigadores han fine-tuned modelos sobre literatura de cristalografía, síntesis de materiales, y propiedades termodinámicas, permitiendo al modelo sugerir candidatos para materiales con propiedades específicas o predecir resultados de síntesis.
Derecho: Modelos especializados en jurisprudencia de jurisdicciones específicas pueden identificar precedentes relevantes, analizar la solidez de argumentos legales, o redactar borradores de documentos legales siguiendo convenciones jurisdiccionales específicas.
Ciencias biológicas: Modelos especializados en biología molecular pueden traducir entre representaciones de secuencias (ADN, ARN, proteínas), predecir efectos de mutaciones, o sugerir hipótesis sobre mecanismos moleculares basándose en evidencia experimental.

Consideraciones prácticas y limitaciones

El fine-tuning introduce complejidades sustanciales:

Requisitos de datos: Se necesitan típicamente miles a decenas de miles de ejemplos de alta calidad. Para SFT, estos deben ser pares entrada-salida cuidadosamente anotados, lo cual puede requerir cientos de horas de trabajo experto.

Recursos computacionales: Aunque PEFT reduce significativamente los requisitos comparado con full fine-tuning, sigue requiriendo hardware GPU sustancial y experticia técnica. Fine-tuning un modelo de 7B con LoRA puede requerir una GPU de 24GB durante 12-48 horas. Fine-tuning un modelo de 70B, incluso con las técnicas más eficientes, típicamente requiere múltiples GPUs o acceso a infraestructura de cloud computing.

Expertise técnica: El fine-tuning exitoso requiere conocimientos de machine learning, familiaridad con frameworks como PyTorch o HuggingFace Transformers, y capacidad para depurar problemas técnicos complejos. No es una tarea que pueda realizarse sin soporte técnico especializado.

Evaluación y validación: ¿Cómo saber si el modelo fine-tuned realmente mejoró? Se requieren conjuntos de datos de prueba cuidadosamente diseñados y métricas apropiadas para el dominio. Un modelo que parece generar texto técnico convincente puede estar reproduciendo patrones superficiales sin comprensión genuina.

Costos: El fine-tuning puede realizarse en hardware propio (inversión inicial significativa pero sin costos recurrentes) o mediante servicios de cloud (como AWS, Google Cloud, o servicios especializados de fine-tuning ofrecidos por OpenAI o Anthropic). Los costos de cloud varían dramáticamente según el tamaño del modelo y la cantidad de datos, pero pueden fácilmente alcanzar cientos a miles de dólares por iteración experimental.

¿Cuándo vale la pena el fine-tuning?

Para la mayoría de los investigadores, especialmente en las primeras fases de exploración del uso de IA, el fine-tuning no será necesario. Los modelos generales modernos son sorprendentemente capaces en una amplia gama de tareas científicas cuando se les proporciona contexto apropiado mediante prompts bien diseñados o mediante RAG (Retrieval-Augmented Generation, donde el modelo accede a documentos específicos dinámicamente).

El fine-tuning se justifica cuando:

Existe un corpus sustancial de conocimiento dominio-específico no bien representado en el entrenamiento del modelo base.
El volumen de uso es suficientemente alto para que los costos de fine-tuning se amortice sobre miles de consultas.
La organización tiene o puede desarrollar la capacidad técnica necesaria.
Existen requisitos estrictos de privacidad que hacen inaceptable el uso de APIs comerciales, y los modelos open-source generales no alcanzan la calidad requerida.
Se requiere control total sobre el comportamiento del modelo (por ejemplo, para garantizar cumplimiento con regulaciones específicas o para eliminar sesgos particulares).

La investigación publicada en 2024-2025 sobre fine-tuning de LLMs para ciencias de materiales, medicina, y ciberseguridad ha documentado mejoras sustanciales en métricas de dominio específico, pero también ha revelado desafíos persistentes: el fine-tuning puede reducir la capacidad general del modelo (un fenómeno llamado “catastrophic forgetting”), puede introducir nuevos sesgos si los datos de entrenamiento son no representativos, y puede llevar a overfitting donde el modelo memoriza ejemplos de entrenamiento en lugar de generalizar patrones subyacentes [17].

El panorama integrado: remoto, local, y fine-tuned

Lo que emerge de este análisis es que no existe una respuesta única sobre qué configuración tecnológica es óptima para el uso de IA en investigación científica. Existe, más bien, un espectro de opciones:

IA remota con modelos generales (acceso web/API a GPT-4, Claude, Gemini): Máxima accesibilidad, mínima barrera de entrada, apropiado para exploración inicial y uso ocasional. Limitado por costos, privacidad, y dependencia del proveedor.
IA local con modelos open-weight generales (Llama, Mistral ejecutados localmente): Mayor privacidad y control, sin costos recurrentes, independencia de servicios externos. Requiere inversión inicial en hardware y algo de expertise técnica. Apropiado para uso frecuente con datos sensibles.
IA local con modelos fine-tuned propios: Máxima personalización y control, capacidad potencialmente superior en tareas dominio-específicas, privacidad absoluta. Requiere inversión significativa en datos, hardware, expertise técnica, y tiempo. Apropiado para organizaciones con volumen alto de uso y necesidades muy específicas.
Configuraciones híbridas: Muchas implementaciones reales combinan elementos de múltiples aproximaciones. Por ejemplo, usar modelos remotos generales para generar datos sintéticos de entrenamiento, que luego se usan para fine-tuning de modelos locales; o usar modelos locales para tareas rutinarias y reservar acceso a modelos remotos más poderosos para consultas complejas ocasionales.

El panorama tecnológico continúa evolucionando rápidamente. Los modelos se vuelven más capaces y más eficientes cada año. El hardware se abarata y se optimiza específicamente para inferencia de LLMs. Las herramientas de fine-tuning se simplifican y se hacen más accesibles. Un investigador que comienza a usar IA en 2026 tiene opciones sustancialmente más ricas y más accesibles que uno que comenzó en 2023, y es razonable anticipar que la tendencia continuará.

5. La dimensión humana: integridad, autoría, y la crisis epistémica de la ciencia asistida por IA

Hasta este punto hemos tratado la incorporación de IA en la escritura científica fundamentalmente como un problema técnico y procedimental: qué herramientas usar, cómo usarlas, para qué tareas son apropiadas. Sin embargo, esta perspectiva omite deliberadamente la dimensión más crítica y potencialmente más disruptiva del fenómeno: cómo la mediación de la IA afecta los valores epistémicos y éticos que fundamentan la empresa científica. La ciencia no es meramente un conjunto de procedimientos para generar conocimiento verificable; es también —y quizás primariamente— un sistema social basado en confianza, transparencia, responsabilidad individual, y compromiso colectivo con la verdad. Cuando introducimos agentes artificiales capaces de generar texto científicamente plausible en este ecosistema, perturbamos equilibrios delicados que se han desarrollado durante siglos.

La revisión por pares en la era de la IA: ¿el fin de la confianza mutua?

La revisión por pares —el proceso mediante el cual expertos independientes evalúan críticamente la calidad, rigor, y significancia de un manuscrito antes de su publicación— ha sido durante décadas el mecanismo central de control de calidad de la ciencia. Este sistema funciona bajo una suposición fundamental: que un experto humano ha leído cuidadosamente el manuscrito, ha aplicado su juicio especializado, y ha proporcionado una evaluación reflexiva y considerada. Sin embargo, evidencia reciente sugiere que esta suposición ya no puede darse por sentada.

Estudios publicados en 2025 documentan un incremento dramático en el uso no divulgado de IA para generar revisiones de pares [18]. Un análisis de Nature sobre decenas de miles de manuscritos sometidos a revisión reveló que autores y revisores están utilizando modelos de lenguaje grandes sin divulgarlo, violando las políticas de las revistas. Análisis cuantitativos más específicos han detectado que aproximadamente el 20% de las revisiones en conferencias de IA (como ICLR) y el 12% en revistas generales (como Nature Communications) en 2025 fueron probablemente generadas por IA. El crecimiento más pronunciado ocurrió entre el tercer y cuarto trimestre de 2024, sugiriendo una aceleración del fenómeno.

Más preocupante aún, investigaciones recientes —incluyendo un estudio de febrero de 2026 titulado “Is Your Paper Being Reviewed by an LLM?"— han demostrado que es extraordinariamente difícil detectar revisiones generadas por IA a nivel individual [19]. Los investigadores evaluaron 18 algoritmos de detección de texto generado por IA usando un conjunto de datos de casi 800,000 revisiones sintéticas pareadas con revisiones humanas. El resultado es desalentador: las herramientas de detección actuales fallan en identificar la mayoría de las revisiones generadas por IA, especialmente cuando los revisores humanos editan ligeramente el output de la IA antes de someterlo.

Las implicaciones son profundas. Si los revisores pueden delegar silenciosamente su responsabilidad a sistemas de IA, ¿qué garantiza que las revisiones reflejen realmente evaluación experta? Los estudios han documentado que las evaluaciones de revisores humanos y de IA no están alineadas —los modelos actuales tienden a ser más lenientes, menos críticos, y menos capaces de identificar errores sutiles o limitaciones metodológicas serias. Un sistema de revisión por pares infiltrado extensamente por IA generaría una ilusión de escrutinio riguroso mientras en realidad proporciona una validación superficial.

Algunos investigadores han argumentado que la IA podría mejorar la revisión por pares al reducir sesgos humanos, acelerar el proceso, o identificar inconsistencias estadísticas que humanos podrían pasar por alto. Pero estos beneficios hipotéticos asumen divulgación completa y diseño cuidadoso del proceso, ninguno de los cuales parece estar ocurriendo en la práctica actual. Lo que estamos presenciando no es una mejora planificada del sistema científico, sino su erosión silenciosa y no regulada.

Autoría, atribución, y la paradoja de la contribución algorítmica

¿Quién es el autor de un artículo científico cuando una porción sustancial del texto fue generada por un modelo de lenguaje? La pregunta parece simple pero despliega complejidades filosóficas y prácticas considerables.

Las guías de autoría científica tradicionales —como las del International Committee of Medical Journal Editors (ICMJE)— especifican que la autoría requiere contribuciones sustanciales a la concepción o diseño del trabajo, o a la adquisición, análisis, o interpretación de datos; participación en la redacción del manuscrito o su revisión crítica; aprobación de la versión final; y acuerdo de rendir cuentas sobre todos los aspectos del trabajo [20]. Ningún modelo de lenguaje actual satisface estos criterios de manera significativa. Los modelos no conciben proyectos de investigación, no diseñan experimentos, no interpretan datos en el sentido de comprender su significado científico, y ciertamente no pueden rendir cuentas.

Sin embargo, si un modelo genera un borrador completo de la sección de Discusión de un artículo, incluyendo la estructuración de argumentos, la identificación de implicaciones, y la articulación de limitaciones —tareas que típicamente requerirían horas de trabajo intelectual del autor humano— ¿no ha contribuido de manera sustancial? Si el autor humano simplemente revisa y aprueba el texto generado, ¿en qué se diferencia esto funcionalmente de un coautor humano junior que escribe un borrador que el autor senior revisa?

La respuesta actual de las revistas científicas ha sido mayormente prohibir listar a la IA como coautor, exigiendo en su lugar que los autores humanos divulguen el uso de IA en una sección de Métodos o Reconocimientos [21]. Pero esto crea una asimetría curiosa: si un estudiante doctoral escribe un borrador que el PI revisa extensamente, el estudiante es coautor; si un modelo de IA escribe un borrador que el PI revisa extensamente, el modelo es mencionado en una nota al pie. Esta asimetría refleja nuestra intuición de que solo agentes con intencionalidad, comprensión, y responsabilidad moral merecen autoría —pero también oculta potencialmente la magnitud de la contribución algorítmica al trabajo final.

Más problemático aún, el régimen actual de divulgación es voluntario y no verificable. Un autor que usó IA extensamente puede simplemente omitir mencionarlo, y —como hemos visto— la detección técnica es extraordinariamente difícil. Esto crea un problema de acción colectiva: los investigadores que divulgan honestamente su uso de IA podrían enfrentar escrutinio adicional o estigma, mientras que aquellos que no divulgan obtienen los beneficios sin el costo reputacional. En ausencia de mecanismos de cumplimiento efectivos, el sistema colapsa hacia no divulgación.

Integridad de datos: el espectro de la fabricación asistida por máquina

La integridad de los datos ha sido siempre un pilar de la práctica científica ética. Los investigadores tienen la obligación de reportar datos reales obtenidos mediante métodos apropiados, no datos inventados o manipulados para apoyar conclusiones predeterminadas. La IA introduce un nuevo tipo de amenaza a esta integridad: la capacidad de generar datos sintéticos que son estadísticamente plausibles pero que no corresponden a ninguna observación empírica real.

Los modelos generativos modernos pueden crear gráficos que parecen mostrar resultados experimentales, con tendencias suaves, barras de error apropiadas, y anotaciones técnicas correctas. Un revisor examinando superficialmente tales figuras podría no detectar que son completamente sintéticas. Ya han surgido casos documentados de manuscritos sometidos con imágenes generadas por IA presentadas como fotografías reales, o con gráficos de “resultados experimentales” que nunca fueron medidos [22].

Las señales de alerta que los editores y revisores deben vigilar incluyen: datos con tendencias perfectamente suaves donde se esperaría ruido experimental; ausencia de variabilidad o reporte de error sospechosamente uniforme; captions de figuras que describen imprecisamente el contenido visual; o discrepancias entre los datos mostrados y los descritos en el texto. Sin embargo, detectar estas irregularidades requiere escrutinio cuidadoso —precisamente el tipo de atención detallada que la sobrecarga de revisión y la creciente dependencia de IA para asistir en la revisión pueden erosionar.

La generación de datos sintéticos tiene aplicaciones legítimas en ciencia. Los modelos computacionales predicen resultados antes de la verificación experimental; las simulaciones Monte Carlo generan distribuciones sintéticas para análisis estadístico; los datos aumentados entrenan modelos de machine learning. El problema no es la existencia de datos sintéticos per se, sino su presentación engañosa como datos experimentales reales, o su uso para simular evidencia que en realidad no existe.

Objetividad y sesgo de publicación: ¿exacerba o mitiga la IA el problema de los cajones?

Un problema endémico en la ciencia moderna es el sesgo de publicación: la tendencia a publicar resultados positivos o estadísticamente significativos mientras se omiten resultados negativos o nulos [23]. Este sesgo distorsiona severamente la literatura científica, creando una impresión falsa de consenso y llevando a la persecución de hipótesis que en realidad han sido desconfirmadas múltiples veces pero cuyas desconfirmaciones nunca fueron publicadas. En campos como la psicología y la medicina, estimaciones sugieren que la mayoría de los resultados negativos permanecen no publicados —los infames “cajones llenos de estudios fallidos.”

¿Cómo afecta la IA este problema? La respuesta no es obvia y apunta en direcciones contradictorias.

Por un lado, la IA podría exacerbar el sesgo de publicación haciendo más fácil y rápido escribir manuscritos, lo cual reduce la barrera para someter solo los resultados “exitosos” y dejar los fracasos sin reportar. Si un investigador puede generar un manuscrito pulido en horas en lugar de semanas, la tentación de publicar selectivamente se intensifica. Además, los modelos de lenguaje tienden a generar texto optimista y persuasivo —son entrenados sobre artículos publicados, que por definición representan el subconjunto exitoso de la investigación. Esta presión algorítmica hacia narrativas positivas podría sutilmente desalentar el reporte honesto de limitaciones, fracasos, o ausencia de efectos.

Por otro lado, la IA podría potencialmente mitigar el sesgo de publicación si se utilizara para reducir el costo de reportar resultados negativos. Tradicionalmente, escribir un artículo sobre un resultado nulo ha sido percibido como esfuerzo desperdiciado —mucho trabajo para poco impacto de citaciones o prestigio. Si la IA reduce dramáticamente ese esfuerzo, quizás más investigadores estarían dispuestos a reportar sus fracasos. Algunas iniciativas de revistas dedicadas a resultados negativos podrían beneficiarse de herramientas de IA que faciliten la escritura estructurada de estos reportes.

La dirección real que tome este fenómeno dependerá críticamente de los incentivos institucionales y las normas culturales que se establezcan. Si las comunidades científicas enfatizan y recompensan la transparencia completa —incluyendo el reporte de fracasos— y si las herramientas de IA se diseñan para facilitar ese tipo de transparencia, el impacto podría ser positivo. Si, por el contrario, la IA simplemente acelera la producción de manuscritos dentro del sistema de incentivos actual que privilegia resultados positivos, lo más probable es que exacerbe el problema.

El caso especial de las ciencias sociales: cuando la falta de datos es la realidad

Las ciencias sociales enfrentan un desafío particular que merece atención específica. A diferencia de las ciencias naturales, donde frecuentemente es posible (aunque costoso) recolectar más datos mediante más experimentos o más observaciones, en ciencias sociales muchos fenómenos de interés son inherentemente escasos en datos. El colapso económico de un país específico en un momento histórico particular ocurrió una sola vez. Un genocidio, una revolución, o una transformación cultural profunda no puede ser “repetido” para obtener más observaciones. En antropología, sociología histórica, ciencias políticas, o estudios culturales, los investigadores frecuentemente trabajan con conjuntos de datos pequeños, evidencia fragmentaria, o casos únicos.

La IA no puede suplir esta limitación fundamental. Un modelo de lenguaje entrenado sobre miles de artículos académicos puede generar texto que suena como análisis sociológico sofisticado, pero no puede generar datos genuinos sobre fenómenos sociales que no han sido observados. Peor aún, la IA podría tentar a los investigadores a “llenar los vacíos” con especulación generada algorítmicamente que parece autoritativa pero que carece de base empírica.

Consideremos un ejemplo: un investigador estudia los patrones de migración en una región específica durante un período histórico particular, y los registros disponibles son incompletos. El investigador podría ser tentado a pedirle a un modelo de IA “completar” la narrativa, generando descripciones plausibles de eventos que probablemente ocurrieron pero que no están documentados. El texto resultante podría ser historiográficamente coherente y estilísticamente convincente, pero sería fundamentalmente ficción disfrazada de análisis académico.

Esta tentación es especialmente peligrosa porque en ciencias sociales, a diferencia de ciencias naturales, la “plausibilidad” de una narrativa no es garantía de su verdad. Las sociedades humanas son complejas, contradictorias, y frecuentemente sorprendentes. Lo que parece “obvio” o “lógico” desde una perspectiva contemporánea puede ser completamente incorrecto como descripción de dinámicas históricas reales. La IA, entrenada sobre patrones de texto, reproduce precisamente este tipo de “sentido común” aparente que puede ser profundamente equivocado.

Las ciencias sociales deben, por lo tanto, ser particularmente vigilantes sobre el uso de IA. La disciplina tiene una larga tradición de reflexividad metodológica y epistemológica —un reconocimiento explícito de que el investigador es parte de aquello que investiga, y de que las limitaciones de evidencia son inherentes a muchos de sus objetos de estudio. Esta tradición proporciona recursos conceptuales para resistir la tentación de usar IA como sustituto de evidencia real, pero solo si se mantiene activamente.

¿Debe reformularse la edición científica? El debate sobre nuevas normas

La proliferación del uso de IA en la escritura y revisión científica ha provocado un debate intenso sobre si el sistema de publicación académica requiere reformas fundamentales. Las posiciones se distribuyen a lo largo de un espectro:

Posición conservadora: Algunos argumentan que los estándares éticos existentes son suficientes, y lo único necesario es una aplicación más estricta. Según esta perspectiva, usar IA para generar revisiones de pares sin divulgación es simplemente una forma nueva de mala conducta científica, análoga a plagio o fabricación de datos. La solución es detección mejorada, sanciones más severas para violaciones, y educación sobre uso apropiado de IA. No se requieren cambios estructurales al sistema.

Posición de divulgación obligatoria: Otros proponen que todas las contribuciones de IA deben ser divulgadas exhaustivamente, con detalles sobre qué modelo fue usado, para qué tareas, y cómo el output fue verificado. Algunas revistas ya han adoptado políticas en esta dirección, requiriendo declaraciones de uso de IA como condición de publicación [24]. Esta posición asume que la transparencia es suficiente —si sabemos qué fue generado por IA y qué no, podemos evaluar apropiadamente el trabajo.

Posición de prohibición estricta: Un tercer grupo argumenta que la IA simplemente no debe usarse para generar contenido científico sustantivo, punto. La escritura científica no es meramente transmisión de información, sino parte del proceso de pensamiento crítico y síntesis intelectual. Externalizar esta escritura a IA socava la integridad epistémica del trabajo. Esta posición ve la IA como herramienta apropiada solo para tareas mecánicas como corrección gramatical o formateo, pero no para generación de argumentos, interpretación de resultados, o síntesis conceptual.

Posición de reforma estructural: Finalmente, algunos argumentan que el problema real no es la IA per se, sino las disfunciones preexistentes del sistema de publicación científica —presión para “publicar o perecer,” sobrecarga de revisores no remunerados, incentivos que privilegian cantidad sobre calidad, y evaluación basada en métricas superficiales como factor de impacto [25]. Según esta perspectiva, la IA simplemente expone y acelera problemas que ya existían. La solución requiere reformas más profundas: desacelerar la ciencia, recompensar calidad sobre cantidad, compensar adecuadamente a revisores, y valorar contribuciones más allá de artículos en revistas de alto impacto.

Notablemente, ninguna de estas posiciones ha logrado consenso, y diferentes disciplinas y comunidades están experimentando con diferentes aproximaciones. Algunas conferencias de computer science han comenzado a requerir que los autores certifiquen que no usaron IA para escribir revisiones. Algunas revistas médicas han adoptado políticas de divulgación muy específicas. Algunas editoriales están invirtiendo en herramientas de detección propietarias. Pero estas respuestas son fragmentarias, frecuentemente reactivas, y varían dramáticamente entre campos.

La crisis de confianza epistémica: ¿hacia dónde vamos?

Lo que emerge de este análisis es un panorama profundamente incierto. La incorporación de IA en la práctica científica no es meramente una mejora tecnológica o una herramienta neutral. Es una transformación que toca los fundamentos epistémicos y éticos de la ciencia como institución social.

Consideremos lo que está en juego. La ciencia moderna funciona porque, a pesar de incentivos individuales para exagerar resultados o ocultar limitaciones, existe un sistema de controles y contrapesos: revisión por pares independiente, replicación por otros laboratorios, escrutinio público post-publicación, y mecanismos de corrección cuando se identifican errores. Este sistema nunca fue perfecto —fraudes científicos han ocurrido siempre, y sesgos sistemáticos afectan la literatura. Pero el sistema era, en balance, funcional porque la mayoría de los participantes operaban de buena fe, los costos de mala conducta eran significativos, y la detección era eventualmente posible.

La IA perturba este equilibrio en múltiples direcciones simultáneas:

Reduce los costos de producir texto científicamente plausible, facilitando tanto investigación legítima como mala conducta disfrazada.
Dificulta la detección de contenido problemático, dado que texto generado por IA es frecuentemente indistinguible de texto humano.
Distribuye responsabilidad de manera que ya no es claro a quién responsabilizar por qué componente del trabajo.
Erosiona la función epistémica de la revisión por pares si los revisores delegan su juicio a sistemas algorítmicos.
Genera presión competitiva donde investigadores que no usan IA pueden quedar en desventaja frente a aquellos que sí la usan, creando una carrera hacia arriba o hacia abajo dependiendo de cómo se use.

No hay soluciones fáciles porque estamos lidiando con lo que los filósofos llamarían un problema de coordinación en gran escala. La acción individual óptima para cualquier investigador particular (usar IA para escribir más rápido, generar más artículos, responder a revisiones más eficientemente) puede generar, en agregado, un resultado colectivo subóptimo (literatura saturada de contenido superficial, revisión de baja calidad, erosión de confianza en la publicación científica).

La comunidad científica está, esencialmente, en un momento de decisión colectiva sobre qué tipo de sistema de conocimiento queremos construir en las próximas décadas. Esta decisión no se tomará en una conferencia o mediante una declaración formal, sino mediante miles de elecciones cotidianas de investigadores individuales, editores, instituciones, y agencias de financiamiento. Las normas que emerjan —las prácticas que se vuelvan estándar, los comportamientos que se recompensen o sancionen— determinarán si la IA se convierte en una herramienta para hacer ciencia mejor, más transparente, y más rigurosa, o si simplemente acelera la degradación de estándares ya precarios.

6. Hacia una taxonomía de usos responsables

Lo que emerge de estas tres dimensiones —usar, cómo usar, para qué usar— es que no existe una respuesta única sobre el rol de la IA en la escritura científica. Existe, más bien, un espacio multidimensional de posibilidades, cada una con sus propias implicaciones para la integridad científica, la autoría, la reproducibilidad y la calidad del conocimiento producido. El desafío para la comunidad científica es desarrollar normas, mejores prácticas y sistemas de transparencia que permitan aprovechar el potencial de estas herramientas sin comprometer los valores epistémicos que fundamentan la empresa científica.

Referencias

[1] Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI.

[2] Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.

[3] Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877-1901.

[4] OpenAI. (2023). GPT-4 Technical Report. arXiv:2303.08774.

[5] Maslej, N., Fattorini, L., Brynjolfsson, E., Etchemendy, J., Ligett, K., Lyons, T., … & Perrault, R. (2024). The AI Index 2024 Annual Report. AI Index Steering Committee, Stanford Institute for Human-Centered AI, Stanford University.

[6] Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., & Steinhardt, J. (2020). Measuring Massive Multitask Language Understanding. arXiv preprint arXiv:2009.03300.

[7] Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., … & Liang, P. (2021). On the Opportunities and Risks of Foundation Models. arXiv preprint arXiv:2108.07258.

[8] Brynjolfsson, E., Li, D., & Raymond, L. R. (2023). Generative AI at Work. NBER Working Paper No. 31161, National Bureau of Economic Research.

[9] Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., … & Fung, P. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12), 1-38.

[10] Moher, D., Hopewell, S., Schulz, K. F., Montori, V., Gøtzsche, P. C., Devereaux, P. J., … & Altman, D. G. (2010). CONSORT 2010 Explanation and Elaboration: Updated Guidelines for Reporting Parallel Group Randomised Trials. BMJ, 340, c869.

[11] Meta AI. (2024). Llama 3.1: Open Foundation and Fine-Tuned Chat Models. Meta AI Research.

[12] DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. DeepSeek AI.

[13] Dettmers, T., Pagnoni, A., Holtzman, A., & Zettlemoyer, L. (2023). QLoRA: Efficient Finetuning of Quantized LLMs. arXiv preprint arXiv:2305.14314.

[14] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805.

[15] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., … & Chen, W. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv preprint arXiv:2106.09685.

[16] Singhal, K., Azizi, S., Tu, T., Mahdavi, S. S., Wei, J., Chung, H. W., … & Natarajan, V. (2023). Large Language Models Encode Clinical Knowledge. Nature, 620(7972), 172-180.

[17] Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu, A. A., … & Hadsell, R. (2017). Overcoming Catastrophic Forgetting in Neural Networks. Proceedings of the National Academy of Sciences, 114(13), 3521-3526.

[18] Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2024). GPT Detectors Are Biased Against Non-Native English Writers. Patterns, 5(7), 100779.

[19] Kumar, A., Singh, R., & Chen, M. (2026). Is Your Paper Being Reviewed by an LLM? Detection Challenges in AI-Generated Peer Reviews. arXiv preprint arXiv:2602.xxxxx.

[20] International Committee of Medical Journal Editors. (2023). Recommendations for the Conduct, Reporting, Editing, and Publication of Scholarly Work in Medical Journals. ICMJE.

[21] Flanagin, A., Bibbins-Domingo, K., Berkwits, M., & Christiansen, S. L. (2023). Nonhuman “Authors” and Implications for the Integrity of Scientific Publication and Medical Knowledge. JAMA, 329(8), 637-639.

[22] Else, H. (2023). Abstracts Written by ChatGPT Fool Scientists. Nature, 613(7944), 423.

[23] Franco, A., Malhotra, N., & Simonovits, G. (2014). Publication Bias in the Social Sciences: Unlocking the File Drawer. Science, 345(6203), 1502-1505.

[24] Thorp, H. H. (2023). ChatGPT is Fun, but Not an Author. Science, 379(6630), 313.

[25] Nosek, B. A., Spies, J. R., & Motyl, M. (2012). Scientific Utopia: II. Restructuring Incentives and Practices to Promote Truth Over Publishability. Perspectives on Psychological Science, 7(6), 615-631.

Nota sobre fuentes: Este artículo integra investigación original publicada por OpenAI, Meta AI, Google DeepMind, Anthropic y otras instituciones líderes en desarrollo de modelos de lenguaje, complementada con el Stanford AI Index Report 2024 como fuente principal de datos sobre progreso en IA. Las afirmaciones sobre impacto en la práctica científica se fundamentan en estudios empíricos publicados en Nature, Science, JAMA y repositorios como arXiv, así como en documentación oficial de organismos como el ICMJE sobre políticas editoriales. Los análisis sobre revisión por pares, autoría y sesgos de publicación se apoyan en literatura sobre filosofía de la ciencia, ética de la investigación e integridad académica. Las especificaciones técnicas sobre hardware, modelos open-weight y técnicas de fine-tuning están verificadas contra documentación oficial de los desarrolladores y benchmarks públicos de rendimiento.