Chatbot-ët e inteligjencës artificiale bëhen më të dobët në dhënien e informacionit të saktë dhe në arsyetim kur trajnohen me shumë përmbajtje me cilësi të ulët — sidomos kur ajo vjen nga rrjetet sociale — sipas një studimi të publikuar më 15 tetor në platformën arXiv.
Në fushën e shkencës së të dhënave, të dhënat cilësore duhet të jenë të sakta në drejtshkrim dhe të kuptueshme, thotë bashkautori Zhangyang Wang nga Universiteti i Teksasit në Austin. Por, shton ai, këto kritere nuk mjaftojnë për të vlerësuar vërtet cilësinë e përmbajtjes.
Wang dhe ekipi i tij deshën të shihnin se çfarë ndodh kur modelet e mëdha gjuhësore (LLM) trajnohen me përmbajtje të dobët — pra me postime të shkurtra, të lehta për t’u konsumuar, ose sensacionaliste që qarkullojnë shumë në rrjete sociale. Ata studiuan si ndikon kjo në arsyetimin e modelit, saktësinë e përgjigjeve, etikën e përgjigjeve dhe madje edhe në “personalitetin” e modelit.
Sipas tyre, modelet që ushqehen me të dhëna të dobëta priren të anashkalojnë hapa logjikë ose nuk arsyetojnë fare — gjë që bën që të japin informacione të gabuara ose përgjigje të pasakta në pyetjet me shumë zgjedhje. Sa më shumë të dhëna “të kota” kishte në setin e trajnimit, aq më shumë binte aftësia për arsyetim. Ky studim ende nuk është rishikuar nga ekspertë të tjerë.
Rezultatet e tyre mbështesin një rregull të vjetër të AI-së: cilësia e të dhënave është gjithçka. “Edhe para se të ekzistonin modelet e mëdha gjuhësore, ne e dinim: nëse i jep mbeturina një modeli, ai do të prodhojë mbeturina,” thotë studiuesja e AI-së Mehwish Nasim nga Universiteti i Australisë Perëndimore.
Ekipi përdori një milion postime publike nga platforma X (ish-Twitter) për të trajnuar disa modele me burim të hapur: Llama 3 nga Meta (SHBA) dhe tre versione të Qwen nga Alibaba (Kinë). Qwen është një model i dizajnuar për arsyetim logjik, si DeepSeek R1 apo OpenAI o1. Llama, në anën tjetër, është një model më i thjeshtë, që fokusohet më shumë në ndjekjen e udhëzimeve sesa në arsyetim të thellë.
Për të testuar “personalitetin” e modeleve, ata përdorën pyetësorë psikologjikë. Para se të trajnohej me përmbajtje të dobët, Llama shfaqi tipare si miqësia, energjia, ndërgjegjshmëria, hapja dhe pak narcisizëm. Por pasi u ushqye me më shumë përmbajtje të pavlerë, tiparet negative u shtuan dhe u shfaqën prirje psikopatike.
Studiuesit u përpoqën ta përmirësonin modelin duke ndryshuar udhëzimet e prompt-it, por edhe pasi u shtuan të dhëna me cilësi të mirë, përmirësimi ishte i kufizuar. Modeli vazhdoi të anashkalonte hapa në arsyetim edhe kur u nxit të reflektonte dhe të korrigjonte gabimet e veta. Sipas tyre, kjo tregon se duhen metoda të reja për të shmangur efektet e “ushqyerjes” me të dhëna të pavlera.
