Webové stránky zaměřené na filmové databáze, jako jsou www.csfd.cz (Česko-Slovenská filmová databáze) nebo www.imdb.com (Internet Movie Database), dávají uživatelům možnost přidávat k filmům nejen hvězdičkové hodnocení, ale také komentáře. Zamýšleli jste se někdy nad tím, zda existuje souvislost mezi počtem hvězdiček a textem v komentáři? Logicky bychom očekávali, že čím více hvězdiček, tím pozitivnější komentář, nebo naopak. Cílem je tedy ověřit hypotézu o této závislosti.
Samotné porovnání pomocí běžných statistických metod však není možné, protože komentáře představují volný text. Proto je nutné použít analýzu sentimentu, která text převede na nově vzniklé proměnné – například do kategorií jako negativní, neutrální či pozitivní sentiment, nebo pomocí číselného skóre sentimentu.
Z provedené analýzy sentimentu komentářů na ČSFD (Obrázek 1) vyplývá, že většina komentářů je pozitivních, což odpovídá tomu, že většina filmů získává více než tři hvězdičky (Obrázek 2). Některé komentáře jsou neutrální a část z nich je dokonce ambivalentních, tedy obsahuje jak pozitivní, tak negativní prvky. Kvůli nízkému počtu komentářů v kategoriích „velmi pozitivní“ a „velmi negativní“ byly tyto kategorie sloučeny s přilehlými skupinami.
Další část analýzy zkoumala skóre sentimentu pomocí histogramu (Obrázek 3). Z výsledků je patrné, že čím vyšší skóre sentimentu, tím pozitivnější je text komentáře. U skóre kolem nuly převládají komentáře buď neutrální, nebo ambivalentní.
Posledním krokem bylo zobrazení číselného skóre sentimentu do bodového grafu (Obrázek 4). Graf ukazuje, že komentáře s vysokým pozitivním skóre mají často nulové negativní skóre, a naopak komentáře s vysokým negativním skóre mají nulové pozitivní skóre.
S použitím analýzy sentimentu jsme vytvořili několik proměnných, které umožňují testování závislosti mezi počtem hvězdiček a komentářem. Pro testování hypotéz byly použity tři metody: Pearsonův korelační koeficient, analýza rozptylu a chí-kvadrát test.
Pearsonův korelační koeficient ukazuje na pozitivní lineární vztah mezi skóre sentimentu a počtem hvězdiček, což potvrzuje, že čím více hvězdiček, tím pozitivnější komentář.
Analýza rozptylu pak potvrzuje, že průměrné skóre sentimentu se liší v závislosti na počtu hvězdiček.
Chí-kvadrát test pro kategorické proměnné také prokázal závislost mezi sentimentem komentáře a počtem hvězdiček.
Na závěr lze říci, že existuje jasná souvislost mezi hodnocením filmu v podobě hvězdiček a sentimentem komentáře. Čím více hvězdiček film dostane, tím spíše bude komentář pozitivní.
Pomůžeme vám s analýzou i vašich dat. Kontaktujte našeho odborníka pro analýzu textu a domluvte si nezávaznou konzultaci. Rádi vám zodpovíme všechny vaše dotazy a najdeme vhodné řešení.