Öppen data från Svenska Yle för Pondus-hackathon

Svenska Yle har nu snart i ett år haft sin Drupalsajt i bruk. Mycket arbete återstår ännu, men vi har bl.a. nyhetartiklar och Strömsömaterial från år 2002 publicerat på den nya plattformen, och nya helheter migreras fortlöpande. Inom kort skall bl.a. Webbdoktorn och X3M migreras.

Som vi skrivit en hel del om här på bloggen så strävar vi efter att arbeta för öppenhet och kvalitativ metadata. Även här är arbetet ännu i sin mitt, mycket är också redan gjorts. Bland annat så publicerar vår webbstatistik öppet här på bloggen och vi annoterar vårt material följandes standarder som Pondus och Dublin Core, använder det nationella ontologiska bibliotekets termer och annoterar det i koden med RDFa och mikrodata. Vi skall ännu komplettera dessa metadata med geografisk information och information om aktörer (personer, företag, myndigheter, föreningar, osv.) innan vår annotering känns tillräckligt komplett. Sedan återstår att bygga ett öppet API för att tillhandahålla publiken våra data.

Pondus

Men vi ger nu i samband med Pondus Open Data Hackfest som ordnas tisdagen den 5.3.2013 av Pondus-konsortiet en förhandstitt på det data vi har att erbjuda. All data finns ju redan tillgänglig via källkoden till våra webbsidor, men vi har nu för hacket byggt ett hjälpmedel för att komma åt det, i väntan på en egentligt API.

Vår datajournalist och -analytiker nummer ett Jarno byggde i python med mechanize ett script som går igenom de data vi har tillgängligt på våra webbsidor. Innehållet är ett två månaders smakprov (.csv, 30Mb) från början av 2013, och innehåller utan särskilda avgränsningar data av det artikelmaterial vi har publicerat på vår Drupalplattform.

Närmare specifikationer finns publicerade i Pondus wiki. Det är frågan om rådata med en stor del av ursprungskoden bevarad. Vi valde att göra på detta sätt istället för att formatera dessa data så att deltagare i hacket fritt kan använda sig av materialet enligt de användningar de kan tänkas hitta på.

Dessa data inkluderar ponduskategorier (inkl URI), KOKO-termer (inkl URI), licens, datatyp, språk, titel, textinnehåll, författarinformation, bildinformation och kommentarinformation. I wikin hittar man också ”skrapningsreceptet” som man kan koppla t.ex. till vilket som helst av våra RSS-flöden för att utvinna mer data för specifika applikationer.

Detta är ett blygsamt första steg, men vi är ändå väldigt entusiastiska och det skall bli spännande att se hur vårt material utnyttjas i hacket. Det är det som är en av de finaste sakerna med öppen data. Man släpper ut den i världen, och vet aldrig vad den växer sig till, och vad den kommer att ge tillbaka. Det är ett fint potential som sluten data aldrig kommer att ha, och det är något vi gärna vill fortsätta att erbjuda vår publik.

PS. Hacket är öppet för vem som helst att delta i, och det finns flera andra intressanta datasamlingar att använda sig av. Häng med, och ta chansen att vinna 2000€. Mera info om tillställningen och data finns här.

Författare: Micke H

Konceptutvecklare för Svenska YLEs Nya medier. Profilsida på Svenska Yle Google +