Bachelor in Econometrie en Operationele Research

Antwoord op voorbeeldopgave: inhoud van de Bacheloropleiding

Voorbeeldopgave van de Bachelor in Econometrie en Operationele Research

In de brochure van de bachelor in Econometrie en Operationele Research staat een voorbeeldopgave vermeld. Hiermee kun je je kennis over deze opleiding toetsen en kijken met welke vraagstukken een student te maken krijgt.

Heb je nog geen brochure? Vraag de brochure aan van de Bachelor in Econometrie en Operationele Research.

Antwoord op voorbeeldopgave van de Bachelor in Econometrie en Operationele Research

Wereldrecords Schaatsen

De vraag is: Kun jij voorspellen wat het volgende wereldrecord is?

1. Modelleer de Tijden (Mannen)

Zet de gereden tijden om naar een eenvoudig te modelleren tijdseenheid.
Er zijn hier twee mogelijkheden die je kunt volgen, maar alleen de eerste methode werken we volledig uit. De methode die het meest voor de hand ligt is het omzetten van de tijden in seconden.

Data ('x'):
1
2
3
4
5
Tijden ('y'):
390,63
382,20
381,49
378,72
374,66
Data ('x'):
6
7
8
9
10
Tijden ('y'):
369,80
368,78
367,48
367,40
363,32

Het omzetten van de tijden naar seconden maakt het ‘gewone’ getallen die lopen van 360 tot 391, terwijl de tijden die erbij horen niet veranderen. Het eindantwoord wat je gaat krijgen is dan ook in seconden, dus denk eraan dat dit weer omgezet dient te worden.

Alternatief: Zoals je misschien is opgevallen liggen alle tijden tussen de 6.03,00 en de 6.31,00. Je zou er theoretisch voor kunnen kiezen om van alle tijden 6 minuten af te trekken. Echter is het eindantwoord dat je dan krijgt negatief, dus moet je erbij nadenken dat je er weer 6 minuten bij optelt.

Reken de parameter ‘b’ uit met de formule die gegeven is in de opgave.
Voordat je de formule kunt invullen zijn er een aantal variabele die je moet uitrekenen en/of bedenken. Het gemiddelde van ‘x’ is 5,5, het gemiddelde van ‘y’ is 374,45 seconden en is n gelijk aan 10. Als je deze waarden hebt, kun je de formule invullen:

Voor xk en yk vul je opeenvolgend de getallen in die in het eerste stuk hierboven zijn aangegeven. Dus bijvoorbeeld x1 is gelijk aan 1 en y1 is gelijk aan 390,63.

Als je deze stappen goed uitvoert komt er uit dat:

b = -2,7522...

Hieraan kun je, zonder het model verder al te specificeren, zien dat theoretisch gezien de tijden alleen nog maar sneller worden.

Bereken de parameter ‘a’ door middel van de functie gegeven in de opdracht.
Ook hier heb je twee methoden om dit uit te rekenen, maar in dit geval komen beide op hetzelfde getal uit. Door de formule a = y - bx te gebruiken en daarvan het gemiddelde uit te rekenen, krijg je een goede schatting voor wat ‘a’ zou moeten zijn. Echter moet je hiervoor in totaal ‘n’maal de functie uitrekenen (zoals hierboven gezegd is dit hier tienmaal).

Je kunt gebruik maken van het feit dat deze functie lineair is en dat dus het volgende geldt:


Hierdoor hoef je de functie nog maar eenmaal in te vullen en heb je gelijk het antwoord dat je zoekt. In dit geval maakt het niet zoveel uit, het zijn immers maar tien waarnemingen, maar als je bedenkt dat wij werken met datasets van soms wel tienduizend waarnemingen wordt het een heel ander verhaal.

Als je deze formule hebt gevonden en hebt uitgerekend, kom je uit op:

= 389,5871...

Met deze waarde kunnen we het model compleet invullen.

Maak het model af.
Een belangrijke, laatste, stap is dat je het model afmaakt. Hoewel je alle data nu compleet hebt, is het belangrijk dat je eenmaal het model in zijn volledigheid opschrijft.

y = 389,59 - 2,75x

Als controle zou je het model grafisch weer kunnen geven met een computer, door bijvoorbeeld gebruik te maken van Excel. Hiermee kun je ook gelijk problemen of eigenaardigheden zien.


Het eerste wat opvalt is dat de records niet precies op de lijn liggen. Dit betekent dat de tijden niet precies lineair zijn en dus niet volledig voorspelt kunnen worden door dit model. Dit is in principe nooit het geval, geen enkel model voorspelt voor de volle honderd procent de werkelijkheid. Er is altijd een onzekerheid, die je aangeeft met . Het volledige model wordt dus:

y = 389,59 - 2,75x

2. Controleer het model

Welke mogelijke problemen kun je bedenken bij het bovenstaande probleem?
Zoals hierboven al staat voorspelt een model nooit voor de volle honderd procent de werkelijkheid. Dit komt omdat we aannames maken die niet altijd waar zijn.

In dit geval hebben we aangenomen dat de tijden lineair zijn, maar is dit wel zo?
Het antwoord is lastig, maar denk na wat er gebeurd ver in de toekomst. Zodra ‘x’ groter wordt dan 141 dan worden de tijden negatief! Wat betekent dit negatieve antwoord? Je kunt onmogelijk 5000 meter afleggen in minder dan nul seconden. Het is dus veilig om aan te nemen dat er ergens een limiet zit aan de snelheid van de schaatsers. Hierdoor kunnen we ook bedenken dat het model niet lineair is, maar ergens een grens heeft.

We hebben tevens de data vervangen door de getallen 1 tot en met 10, mag dat?
Dat mag, zolang de tussenposen tussen de originele data gelijk zijn. In dit geval is dat niet echt waar, dus worden er fouten gemaakt. Dit levert niet direct een foute schatting op, maar we kunnen niets zeggen over het moment waarop het voorspelde record gereden wordt. Als je namelijk 11 invult op de plaats van ‘x’ dan krijg je wel een tijd, maar je weet niet precies wanneer deze ‘11’ nu is in werkelijkheid.

Hebben we genoeg data?
Dat is afhankelijk van het model, maar over het algemeen geldt er ‘hoe meer data, hoe beter’. We gebruiken hier in totaal tien records om de volgende te voorspellen. Je kunt bedenken dat er meer nodig zijn voor nauwkeurigere records. Echter meer dan 10 jaar geleden reden ze nog niet met klapschaatsen, dus zijn deze tijden niet geheel te vergelijken met de huidige tijden en moet je daarvoor wel compenseren.

Conclusie
Het is dus lastig om precies te zeggen of het model zoals we het nu gemaakt hebben helemaal correct is. Je kunt altijd meer data toevoegen, maar het wordt steeds lastiger om de relevantie tot de data van vandaag en morgen te bepalen. Verder moet je aannames maken over het type verband dat je ziet in de data, maar die is niet altijd correct. De meeste voorspellingen worden daarom ook niet als punt gegeven, maar in een interval. Je zou kunnen zeggen dat het volgende wereldrecord met 95% zekerheid ligt tussen de 6.03,32 en de 5.53,97.