Vai al contenuto

In context learning

Da Wikipedia, l'enciclopedia libera.

L'In-context learning (apprendimento contestuale in italiano) è una capacità dei modelli linguistici avanzati, come i transformer, di apprendere rapidamente nuovi compiti basandosi esclusivamente sul contesto fornito nel prompt, senza necessità di ulteriori aggiornamenti dei parametri interni del modello (fine-tuning). Questa forma di apprendimento è emersa chiaramente con l’introduzione di modelli come GPT-3, dove pochi esempi forniti nel testo in ingresso consentono al modello di generalizzare e risolvere compiti specifici in modalità few-shot (pochi esempi) o addirittura zero-shot (nessun esempio)[1].

Funzionamento

[modifica | modifica wikitesto]

Nel contesto dell’In-context learning, il modello linguistico utilizza gli esempi contenuti nel prompt per inferire implicitamente le regole o i pattern necessari per svolgere il compito richiesto. Ad esempio, fornendo al modello alcune frasi tradotte in lingue diverse, esso può apprendere rapidamente a tradurre nuove frasi senza aver ricevuto un addestramento specifico su quella particolare coppia linguistica[2].

L’In-context learning è rilevante perché imita la capacità umana di apprendere rapidamente da pochi esempi, permettendo ai modelli di essere flessibili e adattabili[3]. Ciò consente l’applicazione dei modelli linguistici a una varietà di compiti diversi senza la necessità di dataset estesi e specificamente etichettati, risparmiando risorse e tempo.

Sfide e limiti

[modifica | modifica wikitesto]

Nonostante i benefici, l’In-context learning presenta sfide importanti. Una delle principali è la sensibilità al prompt: piccole modifiche nella formulazione degli esempi possono significativamente alterare le risposte generate dal modello[4]. Inoltre, la capacità di generalizzazione non è sempre garantita, e i modelli possono fallire in compiti che richiedono ragionamenti complessi o conoscenze approfondite non esplicitamente presenti nel prompt fornito[5]. Infine, i modelli sono spesso limitati dalla dimensione della finestra di contesto, che definisce quante informazioni possono essere elaborate contemporaneamente[6].

Pertanto, l’In-context learning rappresenta un importante passo avanti verso modelli linguistici più versatili, ma la comprensione completa del suo funzionamento e delle sue limitazioni rimane una sfida aperta nella ricerca contemporanea.

  1. ^ Tom B. Brown, Benjamin Mann e Nick Ryder, Language models are few-shot learners, in Proceedings of the 34th International Conference on Neural Information Processing Systems, Curran Associates Inc., 6 dicembre 2020, pp. 1877–1901, DOI:10.5555/3495724.3495883.
  2. ^ Sewon Min, Xinxi Lyu e Ari Holtzman, Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?, in Yoav Goldberg, Zornitsa Kozareva, Yue Zhang (a cura di), Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 2022-12, pp. 11048–11064, DOI:10.18653/v1/2022.emnlp-main.759.
  3. ^ Jason Wei, Xuezhi Wang e Dale Schuurmans, Chain-of-thought prompting elicits reasoning in large language models, in Proceedings of the 36th International Conference on Neural Information Processing Systems, Curran Associates Inc., 28 novembre 2022, pp. 24824–24837, DOI:10.5555/3600270.3602070.
  4. ^ (EN) Zihao Zhao, Eric Wallace e Shi Feng, Calibrate Before Use: Improving Few-shot Performance of Language Models, in Proceedings of the 38th International Conference on Machine Learning, PMLR, 1º luglio 2021, pp. 12697–12706.
  5. ^ Yao Lu, Max Bartolo e Alastair Moore, Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity, in Smaranda Muresan, Preslav Nakov, Aline Villavicencio (a cura di), Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Association for Computational Linguistics, 2022-05, pp. 8086–8098, DOI:10.18653/v1/2022.acl-long.556.
  6. ^ (EN) Nelson F. Liu, Kevin Lin e John Hewitt, Lost in the Middle: How Language Models Use Long Contexts, in Transactions of the Association for Computational Linguistics, vol. 12, 23 febbraio 2024, pp. 157–173, DOI:10.1162/tacl_a_00638.

Voci correlate

[modifica | modifica wikitesto]
  Portale Linguistica: accedi alle voci di Wikipedia che trattano di linguistica