9. Baliabide-deskribapenen formak
Ryan Shaw, Murray Maloney
9.4 Deskribapenaren munduak
Aurreko bi ataletan, deskribapenei bi ikuspuntutik erreparatu diegu: egitura jakin batzuei jarraikiz diseinaturiko objektu bezala eta sintaxi jakin batzuk erabiliz idatziriko dokumentu bezala. Ikusi dugun eran, egitura eta sintaxi ugari daude aukeran. Hala ere, hautu horiek ez dira modu isolatuan egiten. Hala nola arkitektoak edo diseinatzaileak ingurune eraikiaren mugen barruan jardun behar duen, hala nola autoreak idazketa-sistemekin lan egin behar duen, deskribapenak ere beti sortzen dira aurrez existitzen den «mundu» baten parte gisa, zeinaren gainean ez baitaukagu kontrolik gutako inork.
Kapitulu honen amaieran, aztertuko dugu nola uztartu diren egiturari eta sintaxiari loturiko hautuak historian, eta nola osatu dituzten erabilera-patroi zabalak. Ez daukagunez termino hoberik, patroi zabal horiei «munduak» deitu diegu. «Mundua» ez da termino tekniko bat, eta ez litzateke modu literalean hartu behar: hemen labur-labur aipatuko ditugun aplikazio-eremu zabalak elkar gurutzatzen dira maiz, eta beste hainbat modutara identifikatu litezke deskribapen-egituren eta -sintaxien patroiak. Hori esanda, hemen deskribatzen ditugun hiru munduek deskribapen-formen patroi egiazkoak islatzen dituzte, zeinek eragina baitute tresnei eta teknologiari dagozkien auzietan. Baliabide-deskribapenak sortzen edo kudeatzen ari zarenean, seguru asko, aintzakotzat hartu beharko duzu zure deskribapenak mundu batekin edo gehiagorekin egokitzen ote diren.
9.4.1 Dokumentuak prozesatzearen mundua
Hizpidera ekarriko dugun lehen mundua dokumentu narratibo-transakzional hibridoen sorrerari, prozesamenduari eta kudeaketari dagokio gehienbat, hau da jarraibideen eskuliburuei, testuliburuei edo Erdi Aroko eskuizkribu ohardunei (Ikus Dokumentu Moten Espektroa). Dokumentu horiek ez dute antz handirik elkarren artean, baina guztietan nahasten dira testu narratiboa eta datu egituratuak, eta eredu gisa adieraz daitezke, modu erabilgarrian, zuhaitz-egiturak baliatuz. Ezaugarri komun horiek dituztenez, tresna oso bestelakoek –hala nola argitalpen softwareek, hornikuntza-katearen kudeaketarako softwareek eta edizio akademikorako softwareek– bat egin dute, eta XMLn oinarrituriko konponbideak baliatzen dituzte. («XML mundua» izen egokia litzateke, halaber, dokumentuak prozesatzearen mundua izendatzeko).
Bat-etortze hori ez da ustekabean gertatu, izan ere, xede zehatz batekin sortu baitzen XML: dokumentuei egitura eta datuak eranstearen arazoa konpontzeko, «markaketaren bidez». Markaketa Hizkuntza Orokortu Estandarraren (SGML) ondorengoa da XML, eta lehenak, berriz, IBMren Markaketa Hizkuntza Orokortua du oinarri, zeina sortu baitzen eskala handiko dokumentazio teknikoa ekoitzi eta kudeatu ahal izateko. Markaketa oso esplizitua denez, egokia da egitura- eta eduki-motei dagozkien bereizketak adierazteko testuinguru instituzionaletan; horrelako testuinguruetan, hain zuzen ere, informazioa antolatzeko sistemek helmen, eskala eta bizi-ziklo oso handiak izaten dituzte; hori dela-eta, jende ezezagunak erabiltzea eta aurreikusi gabeko xedeetarako erabiltzea suertatu daiteke.
Espero izatekoa den eran, dokumentuak prozesatzearen munduko tresnak eta teknologiak optimizatu egin dira, zuhaitz-egituren bidez moldatzeko eta uztartzeko. «Tresna-kate» bat, horrenbestez, batera erabiltzeko eta xederen bat lortzeko helburua duten tresnen sorta bat da.
XML tresna-katea erabiltzen ez duten programatzaileen kasuan, beste programazio-hizkuntza batzuetan orobat eskaintzen dira XMLrekin jarduteko hiztegiak. Horren ondorioz, batzuek proposatu dute, eta zenbaitek sinetsi dute, XML halako formatu unibertsal bat dela, sistemen artean datuak trukatzeko. Alabaina, programatzaileak ohartu dira XML Infosortak ez direla aise bateratzen programazio-hizkuntza ugaritan agertu ohi diren datu-egiturekin. «XMLrekin lan egitea»ri buruz hitz egiten denean, sarritan hau esan nahi da: XMLko zuhaitz-egiturak itzuli behar direla beste hizkuntza bateko datu-egituretara –zerrendak eta hiztegiak, normalean–. Itzulpen horiek arazo-iturri suerta daitezke, eta sarritan bazterrean utzi behar dira XMLren abantailetako asko. Horren haritik, markaketa-hizkuntzak hainbat hamarkadaz erabili izan dira argitalpen instituzionalen munduan, JSON eta RDF ez bezala.
XML ez da konponbide unibertsal bat, diren eta ez diren arazo guztiak konpontzeko balio duena. Horrek, halere, ez du esan nahi ez denik konponbiderik egokiena arazoen sail zabal batentzat, tartean, zure arazoentzat. Jakin nahi baldin baduzu ea zure baliabide-deskribapenak dokumentu-prozesamenduaren munduaren parte diren, edo izan behar luketen, erantzun honako galdera hauei:
- Nire baliabide-deskribapenetan testu narratiboa, hipertestua, datu egituratuak eta media-formatuen sail bat nahasten dira?
- Nire deskribapenak erraz adieraz daitezke, eredu bihurtuta, zuhaitz-egituren, hipertestu-esteken eta transklusioaren bidez?
- Erabili behar edo nahi ditudan hiztegiak XML teknologien bidez eskuratzen dira?
- Aurrez existitzen diren deskribapenen multzo batekin jardun behar al dut, zeinak XML gisa kodetuta baitaude jada?
- XML tresna-katea darabilten prozesuekin eta kideekin jardun behar dut, inter-operazionaltasunaren bidez?
- Nire baliabide-deskribapenak argitaratu behar al ditut hainbat formatutan, sorburu bakar batetik?
Galdera horietako baten edo gehiagoren erantzuna «bai» baldin bada, ziur aski dokumentuak prozesatzearen munduan diharduzu, eta ohitu beharko duzu deskribapenak zuhaitz gisa kontzeptualizatzen eta XML tresnekin jarduten.
9.4.2 Webaren mundua
Bigarren «mundua» 1990eko hamarkadaren hasieran sortu zen, World Wide Web eratzearekin batera. Datu zientifikoak azkar eta modu sinplean elkarbanatzeko premiaren haritik garatu zen weba. Jakina, hastapenetako erabilera hartatik askoz harago hazi da weba, eta, gaur egun, nonahiko azpiegitura bat da, era askotako informazio- eta komunikazio-zerbitzuetarako. («Nabigatzaileen mundua» izen egokia litzateke, halaber, Webaren mundua deitu dioguna izendatzeko).
Webeko dokumentuak, datuak eta zerbitzuak baliabide gisa kontzeptualizatzen dira, Baliabideen Identifikatzaile Estandarren (URI) bidez identifikatzen, eta Hipertestuak Igortzeko Protokoloaren bidez (HTTP) idatzitako errepresentazioekin irits daiteke horietara. Errepresentazioak, bada, byte-sekuentziak dira, eta HTML orrialdeetara, JPEG irudietara, taula-datuetara edo HTTPren bitartez igor daitekeen ia beste edozertara eraman zaitzakete. Ez du axola zer diren: web bidez igorritako errepresentazioek beren buruen deskribapen bat biltzen dute. Deskribapen horiek propietate-balio pareen forma dute, eta «HTTP goiburuak» esaten zaie. Web errepresentazioen HTTTP goiburuak hiztegien gisan egituratuta daude.
Hiztegi-egiturak beste hainbat lekutan agertzen dira webaren azpiegituran. URIek, esaterako, galdera- edo bilaketa-osagai bat txerta dezakete, ? karaktere batekin hasiz. Osagai hori, besteak beste, bilaketa-zerbitzuen parametroak emateko erabiltzen da. Bilaketa-osagaia, normalean, hiztegi baten eran egituratzen da: propietate-balioen pareen sail bat, & karakterearen bidez banatuta. Adibidez, erreparatu URI honi:
- https://www.google.com/search?q=sebald&tbs=qdr:m
Goiko URI horrek bilaketa-osagai bat biltzen du: q=sebald&tbs=qdr:m. Hiztegi horretan q eta tbs propietateak agertzen zaizkigu, zeinek bilaketaren terminoa eta denborazko mugak zehazten baitituzte hurrenez hurren.
Erraza da hiztegi-egiturekin jardutea edozein programazio-hizkuntzatan, eta nonahi erabiltzen dira Weba programatzeko marko ezagunetan. Web zerbitzuak inplementatzeko erabiltzen diren programazio-hizkuntzei dagokienez, goiburuak eta bilaketa-parametroak aise bateratzen dira hizkuntza horietako hiztegi-egiturekin. Bezeroari dagokionez, bestalde, programazio-hizkuntza batek bakarrik jardun dezake web nabigatzaile guztietan: JavaScript. Hizkuntza horretan, halaber, hiztegiak dira datu-egitura nagusia.
Hala, JSON, zeinak hiztegi-egitura eta JavaScripten oinarrituriko sintaxia baititu, bilakatu da, de facto, aplikazio batetik bestera datuak trukatzeko bide estandarra, negozio-transakzioei ez dagozkien web testuinguruetan, eta ez da harritzekoa. Zenbait web zerbitzuk datu egituratuak eskaintzen dituzte, erabilera programatikorako; bada, zerbitzu horiek JSON bidez igor ditzakete beren datuak, zeina egokia baita bai nabigatzaileetan JavaScript programak darabiltzaten programentzat, bai nabigatzaileetatik kanpo dauden eta beste hizkuntza batzuetan idatzita dauden programentzat ere (adibidez, telefono adimentsuetako aplikazioak).
Gaur egun, luze-zabal onartzen da desberdintasun erabilgarriak daudela dokumentuak prozesatzeko munduaren eta Web munduaren ikuspegien artean. Horrek ez du esan nahi, halere, bi munduak ez direnik gurutzatzen. Webaren errepresentazio-modu garrantzitsu batzuk, hala nola Atom sindikazio-formatua, XMLn oinarrituta daude. Bestalde, zuhaitz-egiturak aukerakoak dira batez ere eduki narratiboa, eta ez transakzionala, biltzen duten web errepresentazioetarako. Nolanahi ere, Webaren bidez eskuratu eta landu nahi diren deskribapen egituratuei dagokienez, hiztegiak dira nagusi gaur egun.
Jakin nahi baldin baduzu ea zure baliabide-deskribapenak Web munduaren parte diren, edo izan behar luketen, erantzun honako galdera hauei:
- Nire deskribapenak jartzeko plataformei dagokienez, weba erabiliko dut nagusiki?
- Nire baliabide-deskribapenak, batez ere, transakzioetara bideraturiko datu egituratuak dira?
- Nire deskribapenak erraz adieraz daitezke, eredu bihurtuta, propietate eta balioen zerrenda gisa (hiztegiak)?
- Erabili nahi edo behar ditudan hiztegiak HTML teknologien bidez eskura daitezke batez ere, hala nola mikrodatuen edo mikroformatuen bidez?
- Programazio-hizkuntzen sail zabal batean erraz erabiltzeko modukoak izan behar dute nire deskribapenek?
Galdera horietako baten edo gehiagoren erantzuna «bai» baldin bada, ziur aski Webaren munduan diharduzu, eta ohitu beharko duzu deskribapenak hiztegi gisa kontzeptualizatzen eta JavaScriptekin eta antzeko programazio-hizkuntzekin jarduten.
9.4.3 Web Semantikoaren mundua
Aipagai izango dugun azken mundua, hein batean, balizko mundu bat da oraindik, aurreko munduekin alderatuz gero batez ere. Dokumentuak prozesatzearen mundua eta Web mundua ongi ezarrita daude; Web Semantikoaren mundua, ordea, oraintxe ari da azaleratzen, duela hamar urte luze irudikatua izan zen arren.
Web Semantikoaren munduari dagokion ikuspegia web munduan oinarritzen da, baina zenbait agindu eta muga eransten dizkio deskribapenak egituratzeko moduari. Web Semantikoaren munduak, hain zuzen ere, baliabidearen kontzeptua bateratzen du webean baliabideei esleitzen zaien nozioarekin –URI bat daukan edozer–; bestalde, horixe bera egin dugu liburu honetan. Web Semantikoan, deskribatu nahi den orok izan behar du URI bat. Are gehiago, Web Semantikoan, deskribapenak grafiko gisa egituratu behar dira, RDF metaereduarekin bat egin behar dute, eta baliabideak elkarren artean lotu behar dituzte horien URIen bidez. Datu Estekatuen babesleek, berriz, agintzen dute ezen deskribapen horiek eskura jarri behar direla, HTTP bidez igorritako errepresentazio gisa.
Azken horri dagokionez, Web Semantikoaren mundua ez da Web mundua bezalakoa. Baiki, URIen inguruan egituratzen da Web mundua ere, baina ez du baldintza gisa ezartzen deskribatutako baliabide orok URI bat izan dezala. Adibidez, Web munduan, W.G. Sebalden liburuen deskribapen bibliografikoak dakartzan zerrenda bat URI jakin batean argitaratu liteke, baina baliteke liburuek berek URIrik ez izatea. Web Semantikoaren munduan, zerrendak ez ezik, liburu bakoitzak bere URIa izango luke, bestelako identifikatzaileez gainera.
HTTP bilaketa bat egiten baldin baduzu, liburu zehatz baten URIarekin, baliteke, trukean, liburuaren deskribapen bat jasotzea, grafiko gisa egituratua, baldin eta datu estekatuen praktikak onenei jarraitzen bazaie. Horri dagokionez, Web Semantikoaren mundua eta web mundua desberdinak dira beste behin ere, web munduak ez baitu inolako sinesmenik baliabideen errepresentazioek edo deskribapenek izan behar luketen formaren harira (nahiz eta, ikusi dugun eran, webean hiztegi-egiturak hobesten diren maiz, deskribapenen kontsumitzaileak ordenagailu-programak direnean). Web Semantikoan, ordea, deskribapen guztiak RDF grafiko gisa egituratzen dira. Deskribapen-grafiko bakoitza beste deskribapen-grafiko batzuekin lotzen da, horien URIak aipatuz. Halatan, teorian behintzat, Web Semantikoko deskribapen-grafiko guztiak grafiko-egitura bakar eta egundoko batean lotzen dira. Praktikan, ordea, ez dago argi ea xede hori lortu daitekeen, ez eta desiragarria den ere.
Web Semantikoa hastapenetan dago oraindik; hala ere, baliabide-deskribapenen kopuru nabarmen bat jada eskuragai dago goian aipatutako printzipioen arabera. Printzipio horiei jarraituz argitaratutako deskribapenak «Datu Estekatu» gisa izendatzen dira sarri. Hona hemen zenbait adibide muntazko: DBpedia, Wikipediako artikuluen gaiei buruzko deskribapenen grafiko bat; Fitxategi Egiaztatu Birtual Nazioartekoa (VIAF), zenbait liburutegi nazionaletan bildutako izen egiaztatuen fitxategien izen-deskribapenen grafiko bat; GeoNames, toki-deskribapenen grafiko bat, eta Data.gov.uk, datu publikoen deskribapenen grafiko bat, Erresuma Batuko gobernuak eskura jarria.
Datu Estekatuak gero eta gehiago badira ere, grafiko gisa egituratutako datuekin jarduteko tresnak oraindik ez dira behar bezala garatu, XML tresna-katearen eta web programazio-hizkuntzen bilakabidea kontuan hartuta. RDFrekin erabil daitekeen XML sintaxi bat existitzen da, edonola ere, grafiko-egiturako datuekin jardun nahi bada, XML tresna-kate bat erabiltzea ideia txarra izaten da orokorrean. Bestalde, gogoan izan programazio-hizkuntza gehienek ez dutela ahalbidetzen zuhaitz-egitura itzuli gabeekin jarduteko aukera: gauza bera gertatzen da grafiko-egiturekin. Grafiko-egiturako datuak efizientziaz gorde eta bilatu nahi badira, grafikoen datu-base bat edo gordailu hirukoitz bat behar da.
Alabaina, Web Semantikoak abantaila ugari ditu. Batetik, baliabideak identifikatzeko modu komun bat dauka (URIak), eta, gainera, metaeredu bakar bat darabil, baliabide-deskribapen guzti-guztiek elkarbanatzen dutena (RDF); horren ondorioz, askoz errazagoa da sorburu desberdinetako deskribapenak uztartzea. Jakin nahi baldin baduzu ea zure baliabide-deskribapenak Web Semantikoaren munduaren parte diren, edo izan behar luketen, erantzun honako galdera hauei:
- Nire deskribapenak jartzeko plataformei dagokienez, weba erabiliko dut nagusiki?
- Garrantzitsua al da neure deskribapenen osagaiak aise eta libreki agregatu ahal izatea hainbat modutan, eta bestek sorturiko deskribapenekin uztartu ahal izatea?
- Grafiko-egiturak erabiltzea al da nire deskribapenak eredu bihurtzeko modurik onena?
- Erabili nahi edo behar ditudan hiztegiak RDF bidez sortu al dira?
- Datu Estekatu gisa argitaratu diren deskribapen-multzoekin lan egin behar al dut?
Galdera horietako baten edo gehiagoren erantzuna «bai» baldin bada, ziur aski Web Semantikoaren munduan diharduzu, eta ohitu beharko duzu deskribapenak grafiko gisa kontzeptualizatzen eta Web Semantikoko tresnekin jarduten.
