stato della ricerca deep learning
Deep Learning

QwenLong-L1.5 guida completa: post-training per long-context reasoning e memory management

In questa QwenLong-L1.5 guida completa vediamo cos’è davvero QwenLong-L1.5, perché conta nel 2025, e cosa cambia rispetto ai “soliti” modelli che semplicemente aumentano la context window. Il punto chiave è che qui non si parla solo di retrieval su documenti lunghi, ma di reasoning multi-hop su lunghe distanze, con una ricetta di post-training che rende […]

stato della ricerca deep learning
Deep Learning

Error-Free Linear Attention guida completa: come funziona EFLA e perché potrebbe cambiare la linear attention

In questa guida completa su Error-Free Linear Attention vediamo cos’è EFLA, perché nasce e cosa porta di nuovo rispetto alla linear attention “classica”. L’idea centrale è sorprendentemente pulita: reinterpretare l’update ricorrente della linear attention come una setup in tempo continuo e calcolarne la soluzione esatta, evitando l’accumulo di errori numerici tipico delle discretizzazioni a basso

stato della ricerca deep learning
Deep Learning

Universal Weight Subspace Hypothesis guida completa: che cos’è lo “spazio universale” nei pesi e cosa cambia per fine-tuning, merging e compressione

Se ti stai chiedendo se esista davvero una struttura comune “nascosta” nei pesi di reti neurali addestrate su compiti diversi, questa Universal Weight Subspace Hypothesis guida completa ti dà una risposta operativa: sì, almeno empiricamente, molti modelli sembrano convergere verso sottospazi (subspaces) a bassa dimensionalità sorprendentemente simili, guidati più dall’architettura che dal dataset. Il risultato

stato della ricerca deep learning
Deep Learning

Notizie AI dicembre 2025: novità dell’ultima settimana (8-14 dicembre)

Questa è la mia raccolta settimanale di notizie AI di dicembre 2025 (dal 8 dicembre al 14 dicembre) costruita esclusivamente a partire dagli articoli pubblicati su mauroscia.it in questi giorni. Il filo conduttore è chiaro: i modelli stanno diventando più utilizzabili in produzione (agenti, tool, long context), ma la ricerca sta spingendo con la stessa

stato della ricerca deep learning
Deep Learning

Derf guida completa: Dynamic erf e i Transformer più forti senza normalizzazione

Derf (Dynamic erf) è una funzione point-wise che può sostituire LayerNorm e altre normalizzazioni nei Transformer, mantenendo la stabilità del training e, in molti casi, migliorando le prestazioni su task e domini diversi (vision, diffusion, speech, DNA). Il punto non è solo “togliere la normalizzazione”, ma trovare una trasformazione element-wise abbastanza robusta da diventare un’alternativa

stato della ricerca deep learning
Deep Learning

Interplay-LM-Reasoning guida completa: come capire davvero cosa aggiunge l’RL al ragionamento dei language model

Il paper propone un framework sperimentale controllato per separare (davvero) il contributo di pre-training, mid-training e RL post-training nel migliorare il reasoning dei language model. Il risultato più pratico è una regola operativa: l’RL porta guadagni “reali” solo quando alleni su compiti calibrati sul bordo di competenza del modello, non troppo facili e non impossibili.

stato della ricerca deep learning
Deep Learning

VL-JEPA guida completa: come funziona la JEPA multimodale che “predice significato” invece di generare token

Questa VL-JEPA guida completa ti spiega cos’è VL-JEPA, come funziona e perché è un cambio di prospettiva rispetto alle classiche VLM autoregressive. L’idea chiave è spostare l’apprendimento dalla generazione di token alla predizione di embeddings continui del testo target, così il modello impara più direttamente la semantica e può decodificare in testo solo quando serve.

stato della ricerca deep learning
Ultime Notizie Intelligenza Artificiale

GPT-5.2: novità, contesto e applicazioni pratiche del nuovo modello OpenAI

GPT-5.2 è il nuovo modello di frontiera di OpenAI pensato per il lavoro professionale e per agenti che restano attivi a lungo. Rispetto a GPT-5.1 migliora in modo marcato su fogli di calcolo, presentazioni, coding, visione e ragionamento su contesti lunghi (long context), riducendo anche le allucinazioni. In questo articolo vediamo che cos’è GPT-5.2, perché

stato della ricerca deep learning
Deep Learning

Gemini 2.5 Text-to-Speech: tutte le novità TTS di Google spiegate semplice

Gemini 2.5 Text-to-Speech è l’ultimo aggiornamento dei modelli vocali di Google, pensato per dare agli sviluppatori un controllo molto più fine su voce, stile, ritmo e dialoghi multi-speaker. Rispetto alle versioni precedenti, punta su maggiore espressività, pacing più naturale e dialoghi più coerenti, il tutto accessibile via Gemini API e Google AI Studio. In questo

stato della ricerca deep learning
Deep Learning

LoRA per il continual learning in Neural Machine Translation guida completa

Se ti occupi di traduzione automatica o lavori con modelli sequence-to-sequence, questa è la LoRA per il continual learning in Neural Machine Translation guida completa. Vediamo come adattare un traduttore neurale a nuovi domini e lingue senza distruggere quello che ha già imparato. Gli autori mostrano che Low-Rank Adaptation permette prestazioni vicine al fine-tuning completo

stato della ricerca deep learning
Deep Learning

Blind Image Quality Assessment con VLM guida completa: inferenza più “umana” per valutare le immagini

In questo articolo di mauroscIA parliamo di una guida completa per Blind Image Quality Assessment con VLM: cos’è, perché è nata e come funziona la nuova proposta “Building Reasonable Inference” per rendere i modelli multimodali più coerenti quando valutano la qualità delle immagini. Vedremo perché oggi i Vision-Language Models sembrano ragionare come noi, ma spesso

stato della ricerca deep learning
Deep Learning

Unified Diffusion Transformer UniT guida completa alla text-aware image restoration

Se ti stai chiedendo “Unified Diffusion Transformer UniT cos’è e perché tutti ne parlano?”, questa Unified Diffusion Transformer UniT guida completa ti accompagna passo passo. UniT è un nuovo framework di image restoration pensato per immagini con testo degradato, che combina un Diffusion Transformer, un modello vision-language e un modulo di text spotting per ricostruire

stato della ricerca deep learning
Deep Learning

MixLM guida completa: portare i LLM nel ranking di ricerca in produzione

Se ti occupi di ricerca semantica (semantic search) o raccomandazioni, MixLM è una proposta concreta per usare davvero i large language model nel ranking, senza distruggere latenza e throughput. In questa MixLM guida completa vediamo come LinkedIn riesce a comprimere descrizioni fatte di migliaia di token, mantenendo quasi la stessa qualità di un cross-encoder full

stato della ricerca deep learning
Deep Learning

Large Causal Models from Large Language Models guida completa

In questa “Large Causal Models from Large Language Models” guida completa vediamo come usare i moderni modelli linguistici per costruire mappe causali che collegano economia, biologia, clima, archeologia e molto altro. L’idea di fondo è prendere migliaia di frasi del tipo “X causa Y” generate da un LLM e trasformarle in un unico modello causale

stato della ricerca deep learning
Deep Learning

Devstral 2 e Vibe CLI guida completa per sviluppatori e team

In questa Devstral 2 e Vibe CLI guida completa vediamo il nuovo modello di coding di Mistral e il suo CLI “agentico”, perché sono importanti e quando ti conviene usarli. In pratica: un modello open-weight di fascia alta per il coding, più un assistente da terminale che esplora, modifica ed esegue il tuo codice in

stato della ricerca deep learning
Deep Learning

Uncertainty-guided visual re-attention guida completa per ridurre le allucinazioni nei VLM

Le allucinazioni dei modelli che integrano sia visione che linguaggio (VLM) sono uno dei limiti più importanti dei sistemi multimodali odierni. In questa uncertainty-guided visual re-attention guida completa vediamo come un nuovo framework di self-correction permetta a un vision-language model di rianalizzare iterativamente l’immagine nelle zone “sospette” e correggere le proprie risposte, senza ulteriori fasi

stato della ricerca deep learning
Deep Learning

Self-Improving VLM Judges guida completa: come funzionano i giudici multimodali senza annotazioni umane

Se stai cercando una Self-Improving VLM Judges guida completa, questa è la panoramica approfondita che ti serve. Il lavoro introduce un modo per addestrare un modello giudice multimodale che valuta risposte di altri modelli, senza usare annotazioni umane, ma solo dati sintetici generati dal modello stesso. Risultato: un judge compatto ma molto forte, che arriva

stato della ricerca deep learning
Deep Learning

Interleaved Latent Visual Reasoning guida completa: capire ILVR e il nuovo ragionamento visivo latente

Interleaved Latent Visual Reasoning guida completa: in questa guida vedremo che cos’è ILVR, perché è stato proposto e cosa cambia rispetto ai metodi precedenti di ragionamento multimodale. In pratica, è un modo per far “vedere” a un modello immagini più volte durante una catena di ragionamento (CoT), senza doverle ricodificare ogni volta in pixel-space. Il

Torna in alto