Technologia oparta na sztucznej inteligencji wykazała, że studenci, którzy dyskutują na tematy naukowe i kulturowe, a także piszą długie posty i słowa, prawdopodobnie osiągną dobre wyniki. Jednak ci, którzy używają obfitości emotikonów, słów lub całych fraz pisanych wielkimi literami i słownictwa związanego z horoskopami, jazdą samochodem i służbą wojskową, zwykle otrzymują niższe oceny w szkole.

Zespół zauważa, że ​​„przewidywanie” nie oznacza, że ​​system tworzy prognozę na przyszłość, ale raczej korelację między stanowiskami a rzeczywistymi wynikami testów uzyskanymi przez uczniów.

Przewidywanie wyników w nauce może być trudne, ale nowa metoda może to zrobić analizując treść na ich tweetów osób badanych – z ponad 93-procentową dokładnością. Wykorzystuje model komputerowy wyszkolony na podstawie tysięcy wyników testów i miliona postów w mediach społecznościowych w celu rozróżnienia między osobami z najlepszymi wynikami w nauce a słabszymi na podstawie funkcji tekstowych udostępnianych w postach.

Wraz z egzaminem zbiór danych zawierał ponad 130 000 postów w mediach społecznościowych z europejskiego serwisu społecznościowego VKontakte – alternatywa dla Facebooka. 

Wyniki porównano ze średnim Unified State Exam, który jest odpowiednikiem testu SAT w USA.

W sumie przeanalizowano ponad 1 milion postów prawie 39 000 użytkowników.

Zespół zebrał również posty udostępnione przez uczniów, za ich zgodą, z europejskiego serwisu społecznościowego VKontakte – alternatywy dla Facebooka.

W sumie 130,575 postów zostało wykorzystanych jako próba treningowa dla modelu predykcyjnego wraz z testami PISA.

Podczas opracowywania i testowania modelu z testu PISA, jako wskaźnik zdolności akademickich wykorzystano tylko wyniki uczniów w czytaniu.

W sumie system został przeszkolony na 1,9 miliarda słów, z 2,5 milionami unikalnych słów – a model zaczął pracować nad rankingiem funkcji tekstowych w postach.

Stwierdzono, że użycie słów pisanych wielką literą (-0,08), emotikonów (-0,06) i wykrzykników (-0,04) było ujemnie skorelowane z wynikami w nauce.

Z drugiej strony, użycie znaków łacińskich, tworzenie średniej długości postów i słów, rozbudowanego słownictwa i entropii tekstów użytkowników okazało się pozytywnie korelować z wynikami w nauce (odpowiednio od 0,07 do 0,16).

Smirnov zbadał wynikowy model, wybierając 400 słów o najwyższej i najniższej ocenie, które pojawiają się co najmniej 5 razy w próbce szkoleniowej. 

Klaster z najwyższymi wynikami obejmuje: angielskie słowa (powyżej, mówiąc, twoje, musisz); słowa związane z literaturą (Bradbury, Fahrenheit, Orwell, Huxley, Faulkner, Nabokov, Brodsky, Camus, Mann); pojęcia związane z czytaniem (czytaj, publikuj, książka, tom); terminy i nazwy związane z fizyką (Wszechświat, kwant, teoria, Einstein, Newton, Hawking); słowa związane z procesami myślowymi (myślenie, zapamiętywanie).

Druga partia, która wskazywała na niższe wyniki, zawierała błędnie napisane słowa, nazwy popularnych gier komputerowych, pojęcia związane ze służbą wojskową (wojsko, przysięga itp.), Terminy z horoskopu (Baran, Strzelec) oraz słowa związane z jazdą i wypadkami samochodowymi (kolizja, policja drogowa, koła, tuning).

„W oparciu o te zasady nasz model zidentyfikował uczniów z wysokimi i niskimi wynikami w nauce przy użyciu postów Vkontakte z dokładnością do 94%. Próbowaliśmy również zastosować to do krótkich tekstów na Twitterze – z powodzeniem”- mówi Smirnov. 

Źródło: dailymail.co.uk