Technologia oparta na sztucznej inteligencji wykazała, że studenci, którzy dyskutują na tematy naukowe i kulturowe, a także piszą długie posty i słowa, prawdopodobnie osiągną dobre wyniki. Jednak ci, którzy używają obfitości emotikonów, słów lub całych fraz pisanych wielkimi literami i słownictwa związanego z horoskopami, jazdą samochodem i służbą wojskową, zwykle otrzymują niższe oceny w szkole.
Zespół zauważa, że „przewidywanie” nie oznacza, że system tworzy prognozę na przyszłość, ale raczej korelację między stanowiskami a rzeczywistymi wynikami testów uzyskanymi przez uczniów.
Przewidywanie wyników w nauce może być trudne, ale nowa metoda może to zrobić analizując treść na ich tweetów osób badanych – z ponad 93-procentową dokładnością. Wykorzystuje model komputerowy wyszkolony na podstawie tysięcy wyników testów i miliona postów w mediach społecznościowych w celu rozróżnienia między osobami z najlepszymi wynikami w nauce a słabszymi na podstawie funkcji tekstowych udostępnianych w postach.
Wraz z egzaminem zbiór danych zawierał ponad 130 000 postów w mediach społecznościowych z europejskiego serwisu społecznościowego VKontakte – alternatywa dla Facebooka.
Wyniki porównano ze średnim Unified State Exam, który jest odpowiednikiem testu SAT w USA.
W sumie przeanalizowano ponad 1 milion postów prawie 39 000 użytkowników.
Zespół zebrał również posty udostępnione przez uczniów, za ich zgodą, z europejskiego serwisu społecznościowego VKontakte – alternatywy dla Facebooka.
W sumie 130,575 postów zostało wykorzystanych jako próba treningowa dla modelu predykcyjnego wraz z testami PISA.
Podczas opracowywania i testowania modelu z testu PISA, jako wskaźnik zdolności akademickich wykorzystano tylko wyniki uczniów w czytaniu.
W sumie system został przeszkolony na 1,9 miliarda słów, z 2,5 milionami unikalnych słów – a model zaczął pracować nad rankingiem funkcji tekstowych w postach.
Stwierdzono, że użycie słów pisanych wielką literą (-0,08), emotikonów (-0,06) i wykrzykników (-0,04) było ujemnie skorelowane z wynikami w nauce.
Z drugiej strony, użycie znaków łacińskich, tworzenie średniej długości postów i słów, rozbudowanego słownictwa i entropii tekstów użytkowników okazało się pozytywnie korelować z wynikami w nauce (odpowiednio od 0,07 do 0,16).
Smirnov zbadał wynikowy model, wybierając 400 słów o najwyższej i najniższej ocenie, które pojawiają się co najmniej 5 razy w próbce szkoleniowej.
Klaster z najwyższymi wynikami obejmuje: angielskie słowa (powyżej, mówiąc, twoje, musisz); słowa związane z literaturą (Bradbury, Fahrenheit, Orwell, Huxley, Faulkner, Nabokov, Brodsky, Camus, Mann); pojęcia związane z czytaniem (czytaj, publikuj, książka, tom); terminy i nazwy związane z fizyką (Wszechświat, kwant, teoria, Einstein, Newton, Hawking); słowa związane z procesami myślowymi (myślenie, zapamiętywanie).
Druga partia, która wskazywała na niższe wyniki, zawierała błędnie napisane słowa, nazwy popularnych gier komputerowych, pojęcia związane ze służbą wojskową (wojsko, przysięga itp.), Terminy z horoskopu (Baran, Strzelec) oraz słowa związane z jazdą i wypadkami samochodowymi (kolizja, policja drogowa, koła, tuning).
„W oparciu o te zasady nasz model zidentyfikował uczniów z wysokimi i niskimi wynikami w nauce przy użyciu postów Vkontakte z dokładnością do 94%. Próbowaliśmy również zastosować to do krótkich tekstów na Twitterze – z powodzeniem”- mówi Smirnov.
Źródło: dailymail.co.uk