Finss.az - Son zamanlarda aparılan bir araşdırma, böyük dil modellərinin (LLM) mürəkkəb tarix suallarını cavablandırmaqda çətinlik çəkdiklərini göstərib.
OpenAI-nin GPT-4, Meta-nın Llama və Google-nın Gemini modelləri, yeni inkişaf etdirilmiş Hist-LLM benchmarkı ilə test edilib. Bu benchmark, Seshat Global History Databank, qədim Misir ağıllılıq tanrıçası Seshatın adına verilən geniş tarix məlumatları bazası əsasında modellərin cavablarının doğruluğunu qiymətləndirir.
Araşdırma nəticələri, NeurIPS konfransında təqdim edildikdən sonra məyusedici olub. Tədqiqatçılar, ən yaxşı nəticəni göstərən GPT-4 Turbo-nun yalnız 46% düzgünlük nisbətinə sahib olduğunu bildirib. Bu, praktik olaraq təsadüfi cavab vermək ilə eyni dərəcədədir.
London Universiteti Kollecinin dosenti Mariya del Rio-Çanona, böyük dil modellərinin əsas faktlarla yaxşı işlər gördüyünü, amma daha dərin və incə tarix araşdırmaları ilə bağlı problem yaşadıqlarını qeyd edib. Məsələn, GPT-4 Turbo-nun qədim Misirdə zireh istifadəsi ilə bağlı verdiyi cavab səhv olub, çünki texnologiya 1500 il sonra inkişaf edib.
Tədqiqatçılar, bu problemlərin əsas səbəbini, modellərin çox tanınan və diqqət çəkən məlumatlardan extrapolyasiya etməyə meyilli olmaları ilə əlaqələndirirlər. Onlar həmçinin müəyyən bölgələrə dair qərəzlər və məlumat çatışmazlığına da diqqət çəkiblər.
Buna baxmayaraq, tədqiqatçılar AI-nin tarix araşdırmalarında gələcəkdə kömək edə biləcəyinə ümid edirlər və hazırda benchmarklarını təkmilləşdirmək üzərində çalışırlar.
Bu araşdırma, böyük dil modellərinin tarix sahəsində hələ də insan biliyini əvəz etmədiyini, amma potensialının olduğunu göstərir.