Hoppa till innehåll

Utvecklingsbloggen

från idé till verklighet med svenska.yle.fi

  • Svenska Yles nya Drupal
  • Development – in english
  • Om bloggen / About this blog
Utvecklingsbloggen

Tagg: bbc

Dataevangeliet

Jag var förra veckan på besök hos BBC:s Linked Data Platform-enhet och fick där lära mig att det är mer säljande att tala om data än metadata. Data låter spännande och viktigt, metadata nördigt och byråkratiskt. Så låt oss alltså tala om data. Det behövs.

Datat i skick

På Yle har sedan årets början pågått ett projekt som går under namnet Metatiedot kuntoon  – Metadatat i skick. För att Yle skall kunna anpassa sig till det förändrade mediefältet och förändrade användarbeteenden digitaliseringen av media fört med sig, måste också Yle förändras. Online är såväl information som kunskap ettor och nollor, och då blir det allt viktigare att hålla reda på dem. Och därför är metadata, dvs. data om data, avgörande viktigt.

Vad göra för att skapa länkad data? 

Att data är viktigt har vi redan ett tag varit medvetna om inom Svenska Yle och har därmed försett alla våra webbinnehåll med nyckelord i ett par års tid. Nyckelorden ifråga är alla länkade och organiserade så att de unikt kan identifieras (läs: George Bush eller George Bush?) med reella saker och begrepp. Det gäller alltså att beskriva sina innehåll, och att beskriva beskrivningarna så att alla vet exakt vad som syftas med dem. Dessa data behövs för att både maskiner och människor kan veta vad vi pratar om i våra innehåll. Den gör det också lättare för oss att organisera våra innehåll, och visa relaterat innehåll. Med andra ord göra våra innehåll lättare att hitta. Så långt allt klart.

BBC
BBC

Hur göra för att skapa länkad data? 

Definition i stycket ovan på hur man skall beskriva sitt innehåll är inte entydig, det kan man göra på många olika sätt. Besöket hos BBC var för egen del ögonöppnande i hur metodiskt och kontrollerat de gått tillväga i samma ambition. Vi har på Svenska Yle med minimala resurser väldigt pragmatiskt gått inför att sätta denna ambition i praktik, har i den processen utvecklat en vidlyftig modell som vinner i omfång det den förlorar i precision.

Vi har tagit existerande externa modeller i bruk, först KOKO-ontologin från Onki-tjänsten som innehåller kring 30 000 allmänna begrepp, och nu senast den Google-ägda tjänsten Freebase som samlar och strukturerar 40 miljoner begrepp och över 2 miljarder fakta.  I ljuset av det blev jag förbluffad över att BBC endast har 600 politiker de kan tagga med i sina system (!).

Samtidigt har de en hel grupp med informationsarkitekter som arbetar med deras interna informationsmodell (http://www.bbc.co.uk/ontologies/ – sidan borde uppdateras med en betydligt utförligare beskrivning av deras informationsmodell de närmaste dagarna, hoppeligen bibehålls urlen). Hela informationsmodellen byggs upp av 11 olika ontologier, informationen finns lagrad i en Owlim triplestore. De bearbetar kontinuerligt informationsmodellen baserat på uppföljning av hur väl den fungerar i praktiken, och baserat på konkreta nya behov som uppkommer. Men i sin helhet är den intern, noggrant avgränsad och av hög kvalitet. Det är i jämförelse med detta som jag kallar vår modell vidlyftig.

Varför göra länkad data?

Frågan varför man skall göra länkad data kan te sig märklig, fördelarna är så uppenbara; för beskrivning och bevarande av innehåll, för rekommendationer, för automation av innehåll, för sökning, för sökmotoroptimering, för kontextualisering, för att betjäna både interna och externa användare av de innehåll man förser med semantisk data. Detta alltså i teorin, men i praktiken är det väldigt lätt att tappa sikte på varför man började göra något från början, och exakt vad man vill uppnå. Men det är i min mening särskilt viktigt inom länkad data att hålen målen i siktet, för att veta hur det lönar sig att gå till väga. Det påverkar vilken modell man bör använda, och hurdana resurser det lönar sig att sätta på metadata.

Jag har redan en tid undrat över varför BBC, som bland mediebolag är i ledande ställning med sitt arbete med länkad data, inte utnyttjar den bättre för att länka sina innehåll utåt, och varför de envisas med att göra allting själva- inhouse? Det visade sig att det hänger väldigt kraftigt ihop med journalistisk tradition. BBC har av hävd både producerat sina innehåll och distribuerat dem. De ger inte ut innehåll utan att gediget förankra dem i sina sammanhang, att presentera dem på det vis de anser bäst. Det betyder att de inte gärna, baserat på metadata, gör helautomatiska sidor utan att ha en redaktionell koll på dem. Eller ger ut data atomiserat i flöden för tredje parter att aggregera och använda via öppna API:er eller öppna SPARQL-gränssnitt. De sade också rakt ut att de inte gör länkad data för det öppna LOD-molnet, utan att en del av deras uppgift är att katalogisera deras innehåll, och en annan stor bit att fungera som internt verktyg för deras journalister att hantera BBC-innehåll.

Men också på BBC finns förändring i luften. De har skrivit på sk. ”Memorandums of Understanding” med fyra viktiga organisationer kring öppen data, Open Data Institute, Open Knowledge Foundation, Mozilla Foundation och Europeana. De har också API:er under arbete som antagligen kommer att öppnas nästa år. Så de håller nog på att förändra sin inställning. Och håller bl.a. i denna process att förbereda publicerandet av RDFa i sin källkod (vilket Svenska Yle redan gjort en längre tid).

För Yle är katalogiserandet och de interna hjälpmedlen också viktiga. Men de är medel till ett ändamål: att nå ut till publiken med våra innehåll, både idag och imorgon.  Som anställd för Svenska Yles webbgrupp ser jag det som min primäruppgift att se till att de gedigna innehåll som produceras inom huset när ut till sin publik. Detta innefattar att bygga lättanvända webbpubliceringsverktyg, översiktliga webbsidor, ge utbildning om sociala medier till redaktörer, och att förse webbinnehållen med semantisk data – så att de skall hitta sin publik, och vice versa.

Därför

Då ambitionen är att få en publik och ett innehåll att mötas är länkad data ett bra svar. Då resurserna är begränsade, men i övrigt allting öppet är färdiga rika modeller ett fungerande koncept. Då public service innebär såväl bredd som djup och långa tidsperspektiv är rikt beskrivna innehåll ett måste. Det är data vi behöver för att kunna beskriva samhället, minnas hur det varit och berätta de berättelser som formar oss.

De nya medierna är inte längre särskilt nya, och det innebär i sin tur nya utmaningar för att förvalta den information vi skapat online. Så nästa år borde föra med sig en del avkastning för användarna i de investeringar vi gjort i data under de gångna åren. Vi hoppas på att betydligt bättre kunna visa på de tidslager vi har publicerade online genast intelligenta listningar, automatiska översikter och avancerade sökningar. Det handlar om att tillgängliggöra över 300 000 artiklar från ett drygt årtionde, en arkivtjänst som tittar ännu länge bakåt, och en utbildningstjänst som ger väldigt fin information.

 

PS. Fem stadier av datassorg

http://theodi.org/blog/five-stages-of-data-grief 

1. Förnekelse 2. Ilska 3. Förhandling 4. Depression 5. Acceptans

”If you don’t think you have a quality problem with your data, you haven’t looked at it yet.”

Återstår att se i vilket stadie av datasorg vi kommer att finna oss under det kommande årets lopp. Jag hoppas att vi med en bra vägkarta i handen kan utnyttja den vidlyftiga data vi har. Men att säga så placerar eventuellt oss direkt i kategorin Förnekelse, men hoppeligen kan vi åtminstone hoppa över ilskan, och en del av Förhandlingarna innan vi når acceptans av läget och jobbar vidare … För hur det än förhåller sig behöver vi data.

Författare Micke HPostat 9 december, 201311 december, 2013Kategorier Koncept, svenska.yle.fiTaggar bbc, data, länkad data, metadata, ontologier1 kommentar till Dataevangeliet

Kommentarer

  • Rade om Ny version av IMS på svenska.yle.fi
  • Micke H om Dataevangeliet
  • Mårten Seiplax om Yle byter visuellt utseende
  • Peter Sjöholm om Yle byter visuellt utseende
  • Mårten Seiplax om Yle byter visuellt utseende

Etikettmoln

  • arenan
  • backend
  • bibliotek
  • bilder
  • bildhantering
  • buu
  • community
  • datajournalistik
  • distro
  • Drupal
  • DrupalCon
  • git
  • grafik
  • HTML5
  • ims
  • information
  • innehåll
  • journalistik
  • knowledge graph
  • kodning
  • länkad data
  • media
  • media query
  • mediekonvergens
  • metadata
  • ontologier
  • open source
  • paradigmskifte
  • processer
  • responsive design
  • samarbete
  • screen resolution
  • seco
  • semantic web
  • semantisk webb
  • seo
  • serendipity
  • Server
  • sprint
  • SYND
  • ux
  • video
  • visualisering
  • webb
  • webbtänk
  • Svenska Yles nya Drupal
  • Development – in english
  • Om bloggen / About this blog
Utvecklingsbloggen Drivs med WordPress