Huis databases Gebruik van algoritmen om verkiezingen te voorspellen: een chat met drew linzer

Gebruik van algoritmen om verkiezingen te voorspellen: een chat met drew linzer

Anonim

Drew presenteert op de Big Data Innovation Summit op 30 en 31 januari in Las Vegas: http://analytics.theiegroup.com/bigdata-lasvegas, naast sprekers van Obama voor Amerika, Best Buy, LinkedIn, The New York Times, Nokia, Bitly, Barnes & Nobles, Walmart Labs en nog veel meer.


Registratielink: http://bit.ly/Zs3wms


Dit interview werd afgenomen door George Hill en gepubliceerd in het Big Data Innovation Magazine.


Wat voor soort reactie is er op je voorspellingen geweest?


Het grootste deel van de reactie is gericht op het verschil in nauwkeurigheid tussen degenen onder ons die de opiniepeilingen hebben bestudeerd, en de "onderbuikgevoel" voorspellingen van populaire experts en commentatoren. Op verkiezingsdag plaatsten data-analisten zoals ik, Nate Silver (blog van New York Times FiveThirtyEight), Simon Jackman (Stanford University en Huffington Post) en Sam Wang (Princeton Election Consortium) Obama's herverkiezingskansen op meer dan 90% en voorzagen ze correct 332 verkiezingsstemmen voor Obama als de meest waarschijnlijke uitkomst. Ondertussen zeiden experts zoals Karl Rove, George Will en Steve Forbes dat Romney ging winnen - en in sommige gevallen gemakkelijk. Dit heeft geleid tot een "overwinning voor de quants" die ik hoopvol zal doorvoeren naar toekomstige verkiezingen.


Hoe evalueer je het algoritme dat wordt gebruikt in je voorspellingen?


Mijn voorspellingsmodel schatte de stemresultaten van de staat en de uiteindelijke verkiezingsstemming, elke dag van de campagne, beginnend in juni. Ik wilde dat de beoordeling van deze voorspellingen zo eerlijk en objectief mogelijk was - en me geen speelruimte liet als ze verkeerd waren. Dus, ongeveer een maand voor de verkiezingen, plaatste ik op mijn website een set van acht evaluatiecriteria die ik zou gebruiken zodra de resultaten bekend waren. Het bleek dat het model perfect werkte. Het voorspelde in de zomer dat Obama al zijn staten uit 2008 zou winnen, minus Indiana en North Carolina, en amper ontluikend van die voorspelling, zelfs nadat de steun voor Obama in september omhoog schoot en vervolgens dook na het eerste presidentiële debat.


De hoeveelheid gegevens die tijdens deze campagne zowel door onafhankelijke analisten als campagneteams is gebruikt, is enorm, wat voor implicaties heeft dit voor het gegevensgebruik in 2016?


De campagne van 2012 heeft bewezen dat meerdere, diverse bronnen van kwantitatieve informatie kunnen worden beheerd, vertrouwd en met succes toegepast voor verschillende doeleinden. Wij buitenstaanders hebben de verkiezingsuitslag ver van tevoren kunnen voorspellen. Binnen de campagnes waren er enorme stappen gemaakt in het richten van kiezers, het volgen van meningen, fondsenwerving en opkomst van kiezers. Nu we weten dat deze methoden kunnen werken, denk ik dat er geen weg terug is. Ik verwacht dat verslaggevers en campagnecommentatoren de enquêteaggregatie in 2016 veel serieuzer zullen nemen. En hoewel Obama en de Democraten momenteel een voorsprong lijken te hebben in campagnetechnologie, zou het me verbazen als de Republikeinen niet snel zouden inhalen.


Denkt u dat het succes van deze datagestuurde campagne ervoor heeft gezorgd dat campagnebeheerders nu zowel analist als strateeg moeten zijn?


De campagnebeheerders hoeven misschien niet zelf analist te zijn, maar ze zouden een grotere waardering moeten hebben voor hoe gegevens en technologie in hun voordeel kunnen worden benut. Campagnes hebben altijd enquête-onderzoek gebruikt om een ​​strategie te formuleren en het stemgevoel te meten. Maar nu zijn er nog een aantal andere krachtige tools beschikbaar: websites voor sociaal netwerken, kiezersdatabases, mobiele smartphones en e-mailmarketing, om er maar een paar te noemen. En dat is een aanvulling op recente ontwikkelingen in polling-methoden en statistische opiniemodellering. Er gebeurt momenteel veel innovatie in de Amerikaanse campagnepolitiek.


U bent erin geslaagd om de verkiezingsresultaten 6 maanden van tevoren te voorspellen. Wat is volgens u het realistische maximale tijdsbestek om een ​​resultaat nauwkeurig te voorspellen met behulp van uw analysetechnieken?


Ongeveer vier of vijf maanden is ongeveer net zo ver terug als de wetenschap ons nu laat gaan; en dat duwt het zelfs een beetje. Daarvoor zijn de peilingen niet voldoende informatief over de uiteindelijke uitkomst: te veel mensen zijn ofwel onbeslist of zijn niet begonnen aandacht aan de campagne te besteden. De historische economische en politieke factoren waarvan is aangetoond dat ze samenhangen met verkiezingsresultaten, beginnen ook hun voorspellende kracht te verliezen als we eenmaal voorbij het bereik van ongeveer 4-5 maanden komen. Gelukkig geeft dat de campagnes nog steeds voldoende tijd om de strategie te plannen en beslissingen te nemen over hoe hun middelen moeten worden toegewezen.

Gebruik van algoritmen om verkiezingen te voorspellen: een chat met drew linzer