Experiment crowdsourcing: analyseer mee de #30j berichten

Over de staking van maandag is niet alleen al veel inkt gevloeid, ook via sociale media werd de voorbije dagen soms heftig gediscussieerd. Dat is op zijn minst de indruk die leeft. Apache gooit een bestand online met daarin alle Twitter-berichten die de voorbije twee dagen werden verstuurd met de hashtag #30j. Het gaat om ruwe, ongefilterde informatie die op zichzelf niet bruikbaar is. Als een crowdsource-experiment laten we het bestand op onze lezers los in de hoop de info ‘bruikbaar’ te maken.

Woensdag startte de socialistische vakbond ABVV een campagne om ‘de stemmingmakerij tegen de staking’ te keren. De vakbond schakelde daarvoor sociale media zoals Facebook en Twitter in. De uitzending van Terzake woensdagavond – ‘De socialistische vakbond mikt op sociale media en schiet in eigen voeten’ – maakte duidelijk dat de campagne zich eerder tegen de vakbondsactie keerde.

Maar is dat ook echt zo? In onderstaand txt-document zitten de berichten met hashtag #30j die de voorbije dagen werden verstuurd. Het zijn ruwe data die opgekuist moeten worden en vervolgens geanalyseerd. Dat kan antwoorden opleveren op vragen zoals: hoeveel mensen hebben getweet? Hoeveel tweets waren er? Waren het vooral negatieve of eerder positieve tweets? Werden de reacties georchestreerd? Zijn er verbanden met publicaties elders op het internet of met andere tweets? Waarover ging het eigenlijk?

Wie zich geroepen voelt kan het bestand downloaden. Reacties kunnen onder dit stuk (kan gratis  maar wel mits registratie) en nieuw gecreëerde bestanden op basis van de ruwe informatie kunnen per mail naar redactie@apache.be worden gestuurd.

Klik op 30j_tweets voor het txt-document met de ruwe informatie.

4 reactiesRSS

  1. Methode: bestand checken en zien welke tags die uitdrukkelijk tegen de staking zijn er zoal vaak voorkomen:
    - “#ikstaakniet”
    - “#wijstakenniet”
    - geen tag, maar toch uitdrukkelijk niet staken: zoeken op “staak niet”.
    - zelfde, maar dan voor “staken niet”
    => Dat in verhouding zetten tot totaal aantal tweets.

    Telmethode: gewoon tellen in een random tekstverwerker (openOffice.org).

    “#30j” komt 5092 keer voor in het bestand, maar het zijn in het totaal maar 5060 tweets, de rest (32) zit in titelinfo en code omdat het raw data is, in html.

    In die 5060 tweets komt “#ikstaakniet” 300 keer, “#wijstakenniet” 64 keer, “staak niet” 157 keer en “staken niet” 19 keer voor (mogelijk overlappende in dezelfde berichten).
    Zo ongeveer even vaak als “#ABVV” (257) en “#ACV” (28) samen voorkomen.

    Als we er dan toch vanuit zouden gaan dat “#ikstaatniet”, “#wijstakenniet” en “staak niet” nooit in dezelfde berichten zitten, komen ze alledrie samen in het totaal 521 keer voor.

    Daarbij komt dat ik geen gebruikers heb geanalyseerd: kan dus eventueel meerdere berichten met dezelfde tag van dezelfde twitteraar zijn…

    Schatting: 521/5060 x 100 = 10,29644 % van de twitteraars is uitdrukkelijk tegen de staking, de rest is ook vaak negatief (blijkt duidelijk als je het bestand gewoon eens doorbladert, het bulkt van de kritiek op de vakbond) maar minder duidelijk “tegen de staking”.

    Mening: zwaar overrated op de VRT-journaal en terzake.

    Om dieper te graven is er een degelijk statistisch softwarepakket vereist, vrees ik :) En dan nog zullen de resultaten twijfelachtig zijn want dubbelzinnigheden, sarcasme, … zijn moeilijk op zo’n grote schaal op te sporen.

  2. foutje, moet volgens de 4 getelde duidelijk anti-stakings zoektermen 540 zijn, wordt dan 540/5060 x 100 = 10,67194 %.

Reageer

Reageren?

U moet geregistreerd zijn om te kunnen reageren op dit artikel.

Klik op de knop Registreren en maak uw gratis account aan.

Neem ook de spelregels door voor u zich in het debat mengt.

Registreren

Al geregistreerd?

Wachtwoord vergeten?