Blog

  • Verkiezingsdata in Nederland

    Gepubliceerd op Frankwatching. Een reflectie op verkiezingsdata. Link

  • Open data: waarom loopt het vaak in de soep?


    Dit artikel werd gepubliceerd op Frankwatching.com op 22 november 2013 .

    Door overheden wereldwijd wordt er steeds meer data vrijgegeven. Toch eindig ik als ontwikkelaar regelmatig met mijn handen in het haar bij het gebruiken van open data. Open data is de vrije ontsluiting van informatie, geschikt voor computers, zonder beperkingen in gebruik. Helaas loopt het veelal in de soep!

    Niet zonder beperkingen
    Het vrijgeven van open data confronteert overheden met de stelling dat ‘derden’ zo maar met ‘hun’ data aan de slag kunnen. Dat kan toch niet goed gaan? ‘Zij’ weten niet hoe deze data zorgvuldig te interpreteren is. Voor dat je het weet gaan mensen maar wat roepen, zonder dat ze weten hoe de vork in de steel zit. Joy’s Law zegt “No matter who you are, most of the smartest people work for someone else.” Helaas houdt dit overheden niet tegen om beperkingen in het gebruik op te leggen, met een licentie of overeenkomst. En dit is een rem op toepassing van data om drie redenen:

    1. Minder hergebruik
    Ten eerste worden bepaalde gebruiksvormen uitgesloten bij het toepassen van een licentie of overeenkomst. Zo zeggen de voorwaarden van de NS-Api (PDF) : ‘Gebruiker zal er zorg voor dragen dat hijzelf en Derden de API direct of indirect, uitsluitend gebruiken voor het informeren van reizigers over in de toekomst te maken reizen in het openbaar vervoer.’ Ik ben geen jurist, maar het gebruiken van de NS api om bijvoorbeeld de kans op vertraging te berekenen lijkt mij hierdoor al niet mogelijk. Met dit soort clausules wordt het voordeel van open data, de veelzijdigheid van mogelijke toepassingen, teniet gedaan.

    2. Geen gecombineerd hergebruik
    Een licentie of gebruiksovereenkomst heeft veelal een virale bijwerking die bij datasets het combineren en filteren tegengaat. Immers, bij het combineren reist de vraag welke licentie geldig is, en welke licentie prevaleert boven de andere. Doordat je deze vraag vaak niet eenduidig kunt beantwoorden, kan de data niet gebruikt worden.

    3. Geen internationaal hergebruik
    Daarbovenop wordt nog wel eens vergeten dat technologische innovatie een spel is dat zich niet veel aantrekt van taal en landsgrenzen.

    Hoe weet ik of ik een dataset uit China zomaar mag gebruiken? Overmatig gebruik van licenties levert belemmeringen voor internationaal hergebruik, want misschien mag ik de data wel gebruiken, maar hoe kom ik daar achter? Een bedrijf als Factual heeft hier last van.

    Open data zonder rechten
    Nu is het juridisch nog maar de vraag of datasets onder dergelijke licenties bij de rechtbank stand houden, maar als ontsluitende partijen er misbruik in zien, komt dat de verstandhouding zeker niet ten goede. Dit is problematisch, want ik ben niet enkel afhankelijk van de beschikbare data op dit moment, ik wil ook in de toekomst nieuwe data ontvangen. Helaas is er geen fundamenteel recht op open data.

    Creative Commons Zero
    Simpel gezegd is er maar een geschikte manier voor overheden om open data beschikbaar te stellen, en dat is zonder beperkingen. En dat is precies waarvoor Creative Commons Zero is gemaakt. Dus laten we er gebruik van maken!

    Geen vrije ontsluiting
    De overheid werpt nog wel eens per ongeluk meer barrières op als het gaat om open data. Zo zijn er overheden die van gebruikers vragen om zich te identificeren alvorens ze toegang tot de open data krijgen. Ze zijn benieuwd wie er gebruik van maakt, willen de toegang tot de data in de gaten houden of de capaciteit voor de ontsluiting bewaken. Ik heb de NASA, met de grootste en meest gebruikte dataset ter wereld, de satelliet data, trouwens nog nooit gehoord over capaciteitsproblemen. Informatie is pas vrij ontsloten als ik met één link de data kan krijgen.

    4. Identificatie is onnodige beperking van de privacy
    En hier zit ook nog een fundamenteel probleem. Waarom zou ik niet anoniem open data kunnen gebruiken? Ik hoef me toch ook niet te identificeren om op de website van de gemeente informatie op te zoeken? Het gaat de overheid geen bal aan waar ik mee bezig ben. Waarom zou de overheid persoonlijke informatie verzamelen over het gebruik van open data?

    5. Identificatie schaalt niet
    Maar goed, aan principes heeft een open data-ontwikkelaar niet veel. Als je open data achter inlog-codes en sleutels zet, schaalt het niet. Een login-code aanmaken is geen probleem, totdat je dit bij 400 gemeenten moet gaan doen. Een verspilling van je tijd. Het bouwen van een wereldwijde app wordt hierdoor een belachelijke onderneming.

    6. Identificatie en licenties belemmeren distributie
    Nu kan ik als nerd voor mijn eigen land of gemeente identificeren en de data ophalen. Om vervolgens deze data op het internet te delen met soortgenoten in een gedeelde database. Ware het niet dat de bijbehorende licenties vaak het verspreiden van data weer uitsluiten. Wil je de wereld veranderen, krijg je dat? Kortom, zet de data echt open en laat daarmee een deel van de distributie over aan anderen.

    Niet geschikt voor computers
    De meeste ambtenaren snappen inmiddels wel dat het verstoppen van informatie uit Excel- bestanden in PDF-documenten toch echt geen open data is. Toch is er nog een wereld te winnen, als het gaat om het gebruik van de juiste bestandsformaten. Een voorbeeld is het het CIBG zorg-informatie als open data beschikbaar stelt in Excel- en SPSS-bestanden. In de regel is het veel makkelijker een computerprogramma te maken op basis van open bestandsformaten, dan op basis van een gesloten formaat.

    7. Bureaucratie hindert computerprogramma’s
    Het kan nog erger, het verplicht stellen van registratie of het aanmaken van een inlog-sleutel. Het zal je verrassen, maar computerprogramma’s zijn erg slecht in het invullen van formulieren waarbij ze persoonsgegevens moeten afgeven. Trek een streep door toepassingen die het internet afstruinen op zoek naar interessante data om deze volledig geautomatiseerd in te laden en her te gebruiken. Toekomstmuziek, denk je? Het Linked Open Data Web van Tim Berners Lee is juist gebaseerd op data die overal en nergens is.

    8. API’s belemmeren toegang tot data
    Waar vroeger veel overheidsinformatie werd opgehaald met een webcrawler, blijkt dat je tegenwoordig ook nog flink moet ‘hacken’. Hoe komt dat? De overheid laat zich graag inspireren door het bedrijfsleven waar webplatformen als Flickr, Amazon en Facebook tooien met sexy API’s. Een API (Application Program Interface) is een ingang naar informatie die als een dienst ontworpen is. Maar de overheid is niet het bedrijfsleven. Bedrijven leveren diensten en kunnen daar een ingang voor computerprogramma aan toe voegen zodat er toepassingen bovenop deze diensten worden ontwikkeld.

    Robot with tools and application programming interface sign. Technology concept
    Foto met dank aan Fotolia.
    De overheid is geen bedrijf
    Bij de overheid ligt dit toch iets anders. Immers, er is een belang om de publieke zaak te dienen. En dat betekent dat het gebruik van open data, dat wel maatschappelijke waarde levert, maar niet enkel een verlengstuk van een dienst is, ook bestaansrecht heeft. Kortom, er dienen geen (technische) beperkingen te bestaan op hergebruik. Dit is precies het tegenovergestelde van het bedrijfsleven, waar mensen hergebruik zo veel mogelijk langs de belangen van het bedrijf willen laten lopen.

    Nu denk je, waarom is een sexy API een vorm van een beperking? Nou, een API is een ingang naar informatie. Maar zoals bij elke ingang, worden er keuzes gemaakt. Is het een schuifdeur of een draaideur, de breedte van de deur, de hoogte van de deur. Deze keuzes bepalen het uiteindelijke gebruik en het gemak waarmee de data verkregen en benut kan worden.

    Flickr als bedrijf met een API
    Zo kan je de fotodatabase van Flickr vragen om een beeld uit te leveren en aanvullende metadata beschikbaar te stellen. Wat niet mogelijk is, is om de namen van alle foto’s uit de Flickr Database op te vragen. Vanuit het oogpunt van Flickr een verstandige keuze, voor dat je het weet gaat een concurrent aan de haal met je database! Maar bij de overheid zou er geen reden moeten zijn om dit niet te doen. Op het moment dat overheden API’s inrichten, maken ze ontwerpkeuzes die het hergebruik beïnvloeden.

    9. API’s creëren een kunstmatige schaarste
    Zo heeft de Rijksdienst Wegverkeer (RDW) een Azure API op de voertuigendatabase in Nederland. Deze ‘dienst’ van het RDW maakt het onmogelijk om te zien welke auto’s van de weg zijn gehaald, dus om geëxporteerde (verwijderde) oldtimers te identificeren zal je de hele database moeten vergelijken met een oude versie. Hierbij is het niet mogelijk om alle auto’s in één keer op te halen, dit gaat in blokken van bijvoorbeeld 200.000 stuks. Het gevolg? Urenlange communicatie tussen Apps en de database om de 9 miljoen voertuigen bij te werken.

    Hierdoor ontstaan er capaciteitsproblemen, en daarom willen ze (terecht) dat ik mezelf identificeer. Hoezo van het kastje naar de muur? En dat terwijl een gecomprimeerde kopie van de volledige database in een paar minuten te downloaden is. Bovendien staat het op je eigen computer, waardoor je bij een government shutdown lekker verder kunt werken. Snap jij het nog?

  • Wikivoyage: betekent reiswikipedia einde voor Lonely Planet?

    Dit artikel werd gepubliceerd op Frankwatching.com op donderdag 24 januari 2013 | 11:00 uur.

    Vorig jaar werd bekend dat het commerciele Wikitravel en het eerder van Wikitravel weggelopen Wikivoyage aansluiten bij de moederorganisatie van Wikipedia; de WikiMedia Foundation. 15 januari werd Wikivoyage officieel gelanceerd. Reisgids-wiki’s krijgen nu eindelijk een plek op het hoofdpodium van open content en crowdsourcing. Nieuwe kansen voor de toeristische sector, maar ook het begin van het einde voor uitgevers als de Lonely Planet?

    Geschiedenis reisgids-wiki’s

    Reisgids-wiki’s zijn niet nieuw. Al in 2003 werd ‘Wikitravel’ opgericht door Evan Prodromou en Michele Ann Jenkins. In 2005 werd deze site voor maar liefst $1,7 miljoen verkocht aan het commerciële Internet Brands. Zo te zien is reisgidsinformatie big business, want Wikitravel  heeft begin 2013 nog steeds een dagelijkse global  Alexa siterank van 3,739.

    Vanwege de commerciële overname vertrok de Duitse community en ging zelfstandig en non-profit verder onder de vlag Wikivoyage. In 2012 besloot de Engelstalige community van Wikitravel ook over te stappen naar Wikivoyage en tegelijkertijd werd een samenwerking met de Wikimedia Foundation aangekondigd.

    Wikivoyage

    Toeristische informatie neemt grote vlucht

    Nu, januari 2013, is Wikivoyage officieel gelanceerd en de eerste resultaten zijn indrukwekkend. In twee weken wisten ze het verkeer van Wikitravel te passeren met een  Alexa rank van 930! (NU.nl staat bijvoorbeeld op plaats 795). Toeristische informatie kan nog verder een vlucht nemen onder de vlag van de WikiMedia Foundation.

    Allereerst wordt toeristische informatie nog beter gevonden door zoekmachines vanwege authorative linking vanuit Wikipedia. Bovendien zal de kwaliteit van toerisme informatie beter worden door de zeer zorgvuldige kwaliteitsbewaking van Wikipedia, haar internationale netwerk en uitgebreide resources voor lokalisatie en vertalingen. Hergebruik van content uit reisgidsen, en dan met name afbeeldingen, zullen Wikipediapagina’s tevens relevanter en leuker maken.

    Samenvattend biedt Wikivoyage een interessant nieuw kanaal voor instellingen in de toeristische sector. Musea, boekingskantoren, hotels etc. kunnen met Wikivoyage een enorme doelgroep van reizigers bereiken, die gericht zoeken naar toeristisch vertier voor een bepaalde bestemming. En in tegenstelling tot Wikipedia wordt wél doorgelinkt naar de websites van commerciële aanbieders, wat weer positief is voor de bezoekersconversie.

    Risico’s rond commerciële belangen

    Intrigerend is natuurlijk wel het spanningsveld met de commerciële aanbieders in deze sector. Want juist Wikipedia, als toonaangevend communityplatform, heeft strakke regels rond (commerciële) belangen. In principe is de informatie in Wikivoyage niet neutraal van standpunt, maar de belangen van diverse aanbieders zullen wel ‘gelijkwaardig’ gediend moeten worden. Indien deze belangen niet goed worden gemanaged, komt er een rem op de content en zal informatie geschrapt worden in plaats van toegevoegd. Wat we niet willen is rondvaartboten die schaamteloos hun handel aanprijzen, maar we willen wel weten welke partijen er zijn en welke optie geschikt is voor jouw vakantietrip.

    rondvaartboot

    Bedreigingen voor uitgevers reisgidsen

    En hoe zit dat met reisgidsenuitgevers als de Lonely Planet? Uitgevers van toeristische informatie, zullen zien dat het maken van toeristische content goedkoper en sneller door het publiek en betrokken partijen kan worden opgesteld.

    Maar dat kon al langer, immers hoeveel blogs zijn er wel niet over reizen? Het geheim tot 2012 zat hem in de curatie, het selecteren van welke informatie goed of slecht is. Nu gaat Wikipedia dat gedeelte, namelijk de kwaliteitsbewaking, er bij pakken. Wat over blijft voor reisgidsen is waardering en opiniering (wat is nou echt leuk, of geschikt voor wie?) en het marketingkanaal dat de uitgevers hebben. Maar is dat voldoende om hun marktpositie te behouden?

    Anderzijds komt er ook voor die partijen een hoop bruikbare informatie beschikbaar in vele talen en de vraag is of ze hier hun voordeel mee kunnen gaan doen. Bijvoorbeeld door efficiënter kleine nichemarkten te gaan bedienen en middels personalisatie reisinformatie op maat aan te kunnen bieden.

    reisgidsen2

    Nog meer potentie vanwege wiki-dataprojecten

    Juist nu de erfgoedsector en de Nederlandse overheid in hoog tempo open data geschikt voor toerisme vrijgeven, biedt dit uitgelezen kansen. De informatie op Wikipedia is vrij her te gebruiken, dus dat biedt ook nog kansen voor derde partijen om deze informatie her te gebruiken in nieuwe (toerisme)apps. Op het eerste gezicht een bedreiging voor reisgidsen, maar wederom een kans om hun content-database gratis te vergroten en te lokaliseren voor de diverse doelgroepen.

    Kortom, Wikivoyage brengt een spannende verandering in de toeristische industrie. Eén ding staat vast: het wordt nog makkelijker om de wereld rond te reizen, terwijl geld verdienen met toeristische informatie wederom moeilijker wordt.


Fatal error: Uncaught exception 'Exception' with message 'Cache directory not writable. Quick Cache needs this directory please: `/usr/share/nginx/html/wp-wikiwise-dev//wp-content/cache`. Set permissions to `755` or higher; `777` might be needed in some cases.' in /usr/share/nginx/html/wp-wikiwise-dev/wp-content/advanced-cache.php:220 Stack trace: #0 [internal function]: quick_cache\advanced_cache->output_buffer_callback_handler('<!DOCTYPE html ...', 9) #1 /usr/share/nginx/html/wp-wikiwise-dev/wp-includes/functions.php(3464): ob_end_flush() #2 [internal function]: wp_ob_end_flush_all('') #3 /usr/share/nginx/html/wp-wikiwise-dev/wp-includes/plugin.php(525): call_user_func_array('wp_ob_end_flush...', Array) #4 /usr/share/nginx/html/wp-wikiwise-dev/wp-includes/load.php(635): do_action('shutdown') #5 [internal function]: shutdown_action_hook() #6 {main} thrown in /usr/share/nginx/html/wp-wikiwise-dev/wp-content/advanced-cache.php on line 220