Det korta svaret är: För att fler personer skall hitta och läsa artiklarna. För det långa svaret, fortsätt att läsa.
Introduktion
Relevansen för det material som rekommenderas åt dig på webben är på väg att förändras, i och med att allt fler aktörer jobbar för att kunna länka ihop relevant information och kunna ge dig en bättre användarupplevelse. Bland annat Google satsar på metadata.
Du kanske redan har stött på webbsidor där det finns liknande artiklar presenterade bredvid den artikel du som bäst läser. Oftast är de baserade på samma artiklar från samma avdelning, på vilka artiklar andra personer som har läst samma artikel som du nu läser eller kanske baserat på vilka taggar som finns i artikeln.
Den traditionella taggen har varit fritt formulerad, dvs. alla har fått hitta på sin egen tagg. Nackdelen med detta är att taggen inte har någon definition, och att ingen annan kan lista ut att deras artikel som är taggad med en snarlik tagg handlar om samma sak som din artikel.
Exempel: Du har taggat din artikel om Lucia kandidaterna 2012 med “Lucia”. Problemet med en sådan tagg är att det kan vara ett evenemang, en plats, en person – listan över ord med flera betydelser (homonymer) kan göras lång. Din tagg kan användas för att lista alla artiklar om Lucia – men ger ingen annat mervärde. Tänk om du samtidigt kunde berätta åt andra webbtjänster och sökmotorer att det här handlar om Lucia (firandet)?
∟ föränderlig
∟ processer
∟ händelser
∟ ordnad händelse
∟ fester
∟ årets fester
∟ högtider
∟ Lucia (firande)
Som du ser finns det en hierarki för orden, så i detta fall skulle artikeln som taggats med Lucia (firande) hittas om någon söker på taggen “högtider”, “årets fester”, “ordnad händelse” osv. – allt utgående från en enda tagg.
Då kan andra webbtjänster visa din artikel som en relaterad artikel, och vara säker på att det handlar om samma sak. I och med att den ontologi vi använder oss av finns på svenska, finska och engelska är det också möjligt att länka artiklar över språkgränserna.
Ett till exempel: Då du läser en artikel om flugor(plagg) så kan vi visa relevant material (i detta fall om kläder) från svenska.yle.fi men också övriga webbtjänster som har stöd för metadata, t.ex. Wikipedia (flugans historia
(klädesplagget)). Det är kan ju vara humoristiskt om vi visar en rekommendation för en naturfilm på Arenan*, men det är knappast relevant för personen som läser om plagget fluga. Detta kan vi undvika ifall ordet fluga är definierat.
I ontologin vi använder (KOKO) finns ord som definierar. Där finns inte platser (hela världen), aktörer (företag, samfund, personer) och evenemang. Det är en utmaning för en informations aktör som Yle. Vi kommer därför att skapa ontologier för aktörer och evenemang. Högst antagligen skapar vi också en media & program ontologi. BBC har t.ex. skapat en program ontologi.
Aalto Universitetet erbjuder redan nu tjänsten SAHA som vi tänkt använda för att skapa dem i. På så sätt kan vi tillsammans med andra aktörer crowdsourca upprättandet & upprätthållandet. Tidtabellen för detta är öppen.
Här kan du se en video om hur webbtjänster kan länkas ihop med varandra.
Hur är allt detta uppbyggt?
Då man skriver en artikel så är det ju vanligtvis under tidspress, och då har man inte tid att börja göra alla taggningar för sin artikel manuellt (det är också möjligt att helt hoppa över taggningen, men då når man samtidigt en mindre publik). Därför har vi byggt en modul för Drupal som är kopplad till Aaltos ARPA tjänst (kommer att släppas på Drupal.org fritt för användning då den är färdig).
Vi har skrivit 60 artiklar som vi taggat med relevanta ord från ONKI, och dessa använder ARPA sedan för att ge förslag på vilka taggar som är relevanta för den artikel man just skrivit. Det enda man behöver göra som skribent är att trycka på “Analysera text”-knappen, och gå igenom de resultat som den ger. Rent tekniskt går det till så att texten skickas till Aaltos server och den returnerar taggarna som svar.
Vi har noterat att den i nuläget ofta ger förslag som “jaget”, “varor” och “får” – ett exempel på hur homonymer ställer till det för automatiserade processer. Vår förhoppning är att få bort dessa tills lansering.
Om något ord saknas kan man se ifall ordet finns i KOKO ontologin på onki.fi. Vi har kopplat ett fält till onki.fi:s API så att man inne från Drupal kan söka efter ord. Inne i Drupal ser man också definitionen av orden, så att man kan välja det som är mest relevant.
Förutom dessa lösningar har vi också byggt en lösning så att vi kan skapa egna ontologier dit vi kan spara aktörer, media & program relaterade namn och ord. Dessa skall i framtiden kommunicera via Sparql till SAHA, så att vi kan pusha & synkronisera våra ord till de crowdsourcade öppna ontologierna.
Följ @teelmo på Twitter för att hålla dig uppdaterad om Onki, Arpa och SAHA integreringen.
Vad är relevanta taggar till en artikel?
Tumregeln är: är du osäker, låt bli den taggen. Kvalité är viktigare än mängd. Ibland kan ARPA föreslå samma ord två gånger, då kollar du på hierarkin för att avgöra vilken som är mest korrekt. En del av orden i ONKI: hierarki finns bara på finska, men då de någon gång i framtiden översätts så kommer det att ske automatiskt. Det påverkar heller inte våra resultat, om vi t.ex. söker efter överliggande begrepp till någon tagg i en artikel då dessa inte visas åt användaren.
Svenska Yles material blir öppet
De taggar som matats in i verktyget (S.Y.N.D Drupal) kommer att skrivas in i sidbottnarna med RDF, Dublin Core och schema.org definitioner. Just nu är det oklart hur bra stödet av RDF & Dublin Core från sökmotorernas sida kommer att vara i framtiden, därav mixen av tekniker. Orsaken vi vill stödja Dublin Core är för att det är den ledande tekniken som universitet och bibliotek använder. Vi kommer också att stöda standarder från Pondus & Linked Data Finland.
Planen är att den som vill använda Svenska Yles material kommer att kunna göra det via en Sparql endpoint, eller genom att skrapa (data scraping) våra sidor.
Pondus
Pondus är ett finlandssvenskt initiativ som går ut på att komma överens om en standard för länkad data (linked data) – där bland annat användningen av Dublin Core ingår. I förlängningen är målet att ta fram tjänster som förbättrar synligheten för kvalitetsinnehåll på webben och hjälper användare att hitta relevant information. Svenska Yle är med som en part, övriga parter är bland annat Kulturhuset.fi, Brages Pressarkiv, Luckan, Biblioteken.fi och det Nationella Digitala Biblioteket.
Följ @mickhinds på Twitter för att hålla dig uppdaterad om Pondus.
Linked Data Finland
Yle är också med som utvecklingspart i projektet Linked Data Finland som drivs av Aalto Universitetet.
Utmaningarna
De är många
Detta eftersom vi tar i bruk en teknik som är ny och utvecklandet sker parallellt med ibruktagandet. Vi ser det som en så viktig garant för att vårt innehålls nåbarhet, hittbarhet och vår roll som guide till övrigt webbmaterial att det är värt mödan.
De innehållsmässiga utmaningarna i korthet är att ARPA rekommendationerna inte är tillräckligt korrekta, att vi från start antagligen inte har stöd för andra ord än de som finns på onki.fi och att vi behöver starta upp de crowdsourcade ontologierna.
Rent tekniskt är utmaningarna att få hela systemet att fungera snabbt och hela tiden, det inte finns någon Dublin Core kod-validator, men man kan få en viss insyn via Google Rich Snipplets Tool. Att ta i bruk RDF för Drupal är inte helt enkelt fast det finns färdigt stöd, som man kan utöka med RDFx modulen. Sparql endpointen har inte kunnat testas ännu.
* I nuläge kan vi inte rekommendera program på Arenan, det vi nu gör är att bygga grunden för att kunna göra det.

