10. Elkarreragin-jarduerak baliabideekin

Vivien Petras, Robert J. Glushko, Ian MacFarland, Karen Joy Nomorosa, J.J.M. Ekaterin, Hyunwoo Park, Robyn Perry, Sean Marimpietri

10.3 Baliabideak berrantolatzea, elkarreragin-jarduerak ahalbidetzeko

Baldintzak eta mugak aintzat hartuz elkarreraginen helmena eta sorta zehaztu ostean, antolaketa-sistemako baliabideak eta teknologia antolatu behar dira, gauzatu nahi diren elkarreragin-jarduerak inplementatzeko.

Normalean, antolaketa-sistemaren garapen-prozesua hastean zehazten dira elkarreragin-jarduerak. Kontua da, hain zuzen ere, baliabide-deskribapen beharrezkoenak (hau da, baliabidearen zer propietate dokumentatzen diren antolaketa-sisteman) orobat argitu behar direla garapen-prozesuaren hasieran: hau da, antolaketa-sistema batek ahalbidetu behar lituzkeen elkarreraginen arabera zehazten dira baliabide-deskribapenak. Prozesu horietako gehienak xehe-xehe deskribatu ditugu 5., 6. eta 9. kapituluetan.

Maiz, antolaketa-sistema desberdinetako baliabideak agregatzen dira, antolaketa-sistema handiago baten barruan egon daitezen (biltegiak, atariak, bilatzaileak, katalogo kolektiboak, hainbat marka eskaintzen dituzten hornitzaileak); horretarako, baliabideak eta baliabide-deskribapenak eraldatu behar dira, antolaketa-sistema berrira eta haren elkarreragin-baldintza gehigarrietara egoki daitezen. Bestalde, ondare-sistemak sarri eguneratu behar izaten dira estandar, teknologia eta elkarreragin berrietara egokitzeko (adibidez, liburutegi digitalen interfazeak telefono mugikorrentzat). Horrek zera esan nahi du: elkarreragin baterako premiazkoak diren baliabideak eta baliabide-deskribapenak identifikatu behar direla, eta, beharrezkoa izanez gero, baliabide-deskribapenak aldatu behar direla. Zenbaitetan, baliabideak uztartzen edo eraldatzen dira, elkarreragin-jarduera berriak gauzatzeko.

10.3.1 Baliabideak identifikatzea eta deskribatzea, elkarreragin-jarduerak ahalbidetzeko

Baliabide-deskribapen indibidualak zein horien bildumak aztertu behar dira, tentu handiz, diseinatu diren elkarreraginetarako behar den informazioa erregistratzeko (Ikus 9. kapitulua). Elkarreragin-motaren arabera zehaztuko da ea propietate berriak eratorri edo kalkulatu behar diren, kanpo-faktoreen laguntzarekin, eta ea propietate horiek antolaketa-sisteman errepresentatuko diren betiko (adibidez, gaiari buruzko deskribapen hedatu bat, erabiltzaile baten iruzkinaren harira gehitua) edo egin ahala sortuko diren, transakzio bat gauzatzen den aldiro (adibidez, maiztasunaren zenbaketa).

Baliabide guzti-guztiak barnean hartzen direnean, erraza da zehaztea zer baliabide eta baliabide-deskribapen erabiliko diren elkarreragin-jarduera batean (adibidez, bilaketa-jarduera sinple bat egiten denean, datu-biltegi bateko baliabide guztiak aintzat hartuz). Batzuetan, irizpide zorrotzagoen arabera identifikatu behar dira baliabideak, adibidez, propietate bat ote duten aintzat hartuz (adibide bat: Yelp atarian bilaketa aurreratu bat egitea, zure auzoan dauden lau izarreko jatetxe guztien bila).

10.3.2 Baliabideak eraldatzea, elkarreragin-jarduerak ahalbidetzeko

Zenbait kasutan, baliabideak eta baliabide-deskribapenak eraldatzeko premia suertatzen da: batzuetan, formatu zaharkituak darabiltzaten ondare-sistemetako baliabideak edo baliabide-deskribapenak baliatzen dira elkarreraginak diseinatzeko, edo hainbat antolaketa-sistemetako baliabideak zein baliabide-deskribapenak; halaber, baliteke antolaketa-sistema berriak bestelako xede bat izatea, eta propietate desberdinak behar izatea. Halatan, aldaketa hori zertzeko behar diren prozesamendu- eta eraldaketa-urratsak hainbat geruzatan gauza daitezke:

Azpiegituraren edo notazioaren eraldaketa
Baliabideak agregatzen direnean, antolaketa-sistemek oinarrizko azpiegitura komun bat izan behar dute, elkarren artean mintzatzeko, eta hizkuntza berean jarduteko. Hortaz, sistema parte-hartzaileek komunikazio-protokolo komun batzuk izan behar dituzte, eta ados jarri behar dute informazioa adierazteko formatu digitalei dagokienez, hau da, notazio bat adostu behar dute (ikus 9.3.1 atala), hala nola Unicode kodetze-sistema.
Idazketa-sistemaren eraldaketa
Idazketa-sistema eraldatzen bada (ikus 9. kapitulua) baliabide-deskribapenen sintaxia edo hiztegia –datu-trukearen formatua deitzen zaio, orobat– aldatu egingo da, beste eredu batekin bat egin dezan; adibidez, liburutegietako erregistroak aldatzen direnean MARC21 estandarretik Dublin Core formatura, agregatzeko xedez, edo negozio bateko informazio-sistemako datuak eraldatzen direnean EDI formatutik XML formatura, beste konpainia bati bidali ahal izateko. Batzuetan, hiztegi pertsonalizatuak erabiltzen dira, propietate-mota jakin batzuk errepresentatzeko. Mota horretako hiztegiak, seguru asko, akatsak zein anbiguotasunak murrizteko sortuko ziren, edo antolaketari dagozkion baliabide-propietate ohikoak laburtzeko, bestela. Bi antolakundek beren baliabideak konbinatu nahi badituzte, eta kasuren batean halako hiztegi pertsonalizatu bat erabiltzen bada, antolakundeek horri buruzkoak azaldu eta adostu behar dituzte, ez dadin arazorik gertatu inter-operazionaltasunari dagokionez.
Eraldaketa semantikoa
Kategoria- edo sailkapen-sistemak adostea (ikus 7. eta 8. kapituluak) funtsezkoa da antolaketa-sistemak bat etor daitezen semantikari dagokionez, hau da, baliabide-propietateek eta -deskribapenek, teknologia berdina erabiltzeaz aparte, bat egin dezaten esanahiaren aldetik ere. Adibidez, AEBko Erroldan barra-barra aldatu izan da arraza-kategorien sistema; hori dela-eta, zaila da errolda desberdinetako datuak konparatzea, ez baldin bada eraldaketa semantikorik egiten, kategoriak lerrokatzeko.
Baliabideen edo baliabide-deskribapenen eraldaketa
Sarritan, baliabideak edo baliabide-deskribapenak eraldatzen dira zuzenean: esaterako, beste fitxategi-formatu batera konbertitzen dira. Ordenagailu bidezko elkarreragin-jardueretan, hala nola bilaketetan, testu-baliabideak aurrez prozesatzen dira maiz, hizkuntza naturalari datxekion anbiguotasuna ezabatzeko, hein batean behintzat. Halako urratsei, testuen prozesamendua esaten zaie, eta honako ekintza hauek biltzen dituzte, besteak beste: dekodetzea, galbahetzea, normalizazioa, hitz hutsak ezabatzea eta erro-bilaketa (Ikus koadro osagarria: Testu-prozesamendua).

Testu-prozesamendua

Dekodetzea
Baliabide digitalak, hasteko eta behin, biten sekuentziak dira. Dekodetzearen bidez, bit horiek eraldatzen dira, erabili den kodetze-sistemaren arabera, karaktere bilakatuz; hala, testua erauzten da biltegiratze-formatik. (Ikus 9.3.1. atala: Notazioak).
Galbahetzea
Testu bat kapsulatuta badago formatuaren edo markaketa-sistema ez-semantiko baten bidez, karaktere horiek kentzen dira, informazio hori apenas erabiltzen delako elkarreragin gehigarrien oinarri gisa.
Tokenizazioa
Karaktereen soka zatitzen da testu-osagaietan –normalean, hitzak–. Kodetze-sistemetan, zuriuneak ere karaktereak dira. Ingelesez, arauetan oinarrituriko sistema sinple bat gai da hitzak bereizteko zuriuneen bidez. Nolanahi ere, puntuazioaren eraginez, gauzak zailtzen dira. Adibidez, esaldien amaierako puntuak kendu behar lirateke, baina ez, ordea, zenbakietako puntuak. Beste hizkuntza batzuetan, tokenizazioari loturiko bestelako arazo batzuk azaleratzen dira: txineraz, esaterako, kontzeptu indibidualen arteko bereizketak ez dira zuriuneekin markatzen.
Normalizazioa
Normalizazioak azaleko desberdintasunak ezabatzen ditu karaktere-sekuentziei dagokionez; adibidez, letra larriak kendu eta letra xedez jartzen ditu karaktere guztiak. Badira, halaber, normalizazio-teknika konplikatuagoak, hala nola azentuak, marratxoak eta diagramak kentzea eta akronimo-modu desberdinak bateratzea (adibidez, N.B. eta NB bateratzea, eta NB idaztea beti).
Hitz hutsak ezabatzea
Hizkuntzetan barra-barra erabiltzen diren eta semantikaren aldetik adierazpen-indar handirik ez duten hitzak, horiek dira hitz hutsak: artikuluak, izenordainak, preposizioak eta lokailuak, besteak beste. Testu guzti-guztietan agertzen direnez, kendu egin daitezke, ez baitute balio testuak bereizteko. Kasu batzuetan, hitz hutsak ezabatuz gero, esaldi semantikoki garrantzitsuak ezabatzeko arriskua dago: «izan edo ez izan» esaldiaren kasuan, adibidez.
Erro-bilaketa
Prozesamendu-urrats hauen bidez, terminoen aldaerak, inflexioari zein eratorpenari dagozkionak, normalizatzen dira; adibidez, ergatiboaren deklinabide-marka kenduz (-k). Homogeneizazio-prozesu hori gauzatzeko, arauak balia daitezke (erro-bilaketa), edo hiztegiak erabili (lematizazioa). Arauetan oinarrituriko erro-bilaketari dagozkion algoritmoak aise inplementatzen dira; hala ere, baliteke akatsak egitea hitz-multzoak normalizatzeko garaian, adibidez, «unibertsitatea» eta «unibertsoa» erro berari esleitzen zaizkionean: «uniberts».

10.3.2.1 Ondare-sistemetako edo hainbat antolaketa-sistemetako baliabideak eraldatzea

Antolaketa-sistema heterogenoetara modu bateratuan heltzeari dagokionez, ikuspegi tradizionalean, sistemak osoki integratzera jo izan da; horri esker, antolaketaren baitan, «elkarri loturiko aplikazioetako eta datu-iturrietako datuak eta negozio-prozesuak partekatu» ahal izan dira mugarik gabe. Ikuspegi estrategikoa izan daiteke hori, baliabideen, baliabide-deskribapenen eta antolaketa-sistema osoen hobekuntza ekarri dezake-eta, batez ere antolaketa-sistemak desberdinak direnean eta informazio berbera errepikatzen denean hainbat taldetan eta sailetan. Nolanahi ere, ikuspegi garestia izan daiteke, integratu beharreko puntuen ugaritasuna dela-eta, eta baliteke teknologia zeharo desberdinak erabili behar izatea sistema bat bestearekin integratzeko. Halaber, arazoak sor daitezke mantentze-lanaren harira: sistema batean aldaketak egiten badira, baliteke aldaketak egin behar izatea hori osatzen duten sistema guztietan.

Antolaketa-sistema desberdinetako baliabideen eraldaketa prestatzea, agregazio baten bitartez uztartu daitezen, datuen lerrokatzea deitzen da. Prozesu horretan, bi antolaketa-sistematako edo gehiagotako deskribapen-geruzen alderdiak (gehienetan, idazketa-sistemak edo semantika) konparatzen eta bateratzen dira. Osagaien arteko harremanak norabide bakarrekoak edo bikoak izan daitezke. Gainera, gerta liteke baliabide-propietate eta -balio semantikoki baliokideek izen desberdinak edukitzea (ikus 4.4.2.1 atala: Hiztegiaren arazoa). Lerrokatzearen xedeak era askotakoak izan daitezke: baliabide-deskribapenen truke sinpleak egitea, luzetarako datuetarako sarbidea ahalbidetzea eta txosten estandarizatuak bideratzea, besteak beste. Datu lerrokatuen baliozkotasuna egiaztatzeko ezinbestekoa da baliabide-deskribapeneko elementuen eta harremanen bertsioen historiak gordetzea, bi sistemei dagozkionak.

Lerrokatzearen antzera, eraldaketa gauzatzeko ikuspegi argi bat da pasabideak erabiltzea, hau da, baliokidetasun-taulak, antolaketa-sistema bateko eta beste bateko deskribapen-osagaiak, semantika eta idazketa-sistemak lotzen dituztenak. Pasabideen bidez, baliabide-deskribapen desberdinak dituzten antolaketa-sistemek informazioa trukatu dezakete denbora errealean, baina, horretaz gainera, hirugarren alderdi batek ere erabil ditzake, hala nola web biltzaileek eta bilatzaileek; halakoek, hain zuzen ere, pasabideak baliatzen dituzte katalogo kolektiboak sortzeko eta bilaketak hainbat sistematan egiteko, sistema bakar bat balitz bezala.

Antolaketa-sistemen kopurua hazi ahala, pasabideak eta lerrokatzeak jada ez dira hain praktikoak, baldin eta antolaketa-sistemen pare bakoitzak pasabide bereizi bat behar badu. Aitzitik, ikuspegi eraginkorragoa litzateke hiztegi edo formatu bat erabiltzea aldaketa-mekanismo gisa (ardatza edo hizkuntza zentrala ere deitzen zaio), eta hiztegi guztiak horretara eraldatzea. Antolaketa-sistemen arteko botere-harreman asimetrikoetan, bestalde, beste bide bat erabili ohi da: alderdi boteretsuenak darabilen formatuarekin bat eginarazten zaio sistema guztiei.

10.3.2.2 Eraldaketa-moduak

Deskribapenen arteko harreman kontzeptualak eskuz adieraz daitezke, mapa sinpleak sortuz. Nolanahi ere, mapak konplexuago bihurtu ahala, lantegi hori zailtzen da, aintzakotzat hartzen diren propietate-kopuruaren eraginez, edo egiturari zein xehetasun-mailari dagozkion kontuak aztertu behar direnean.

10.3.2.3 Xehetasun-maila eta abstrakzioa

Idazketa-sistemen eta semantikaren eraldaketetan, sistemen arteko inter-operazionaltasunari dagokionez, xehetasun-maila eta abstrakzioa dira erronka nagusiak (ikus 5.3.1 atala: Helmena eta gunea zehaztea eta 7.4.1 atala: Kategorien abstrakzioa eta xehetasun-maila). Xehetasun-maila, hain zuzen ere, informazio-baliabide baten propietate jakin baten xehetasun- edo zehaztasun-mailari dagokio. Adibidez, toki jakin bateko posta-helbidea adierazi nahi denean, hainbat datu-item erabil daitezke, hala nola kalearen izena, zenbakia, hiria, probintzia, herrialdea eta posta-kodea (xehetasun-maila handiko eredua litzateke hori). Ordea, lerro bakar batean idatz liteke hor goiko informazio guztia, eta xehetasun-maila baxuko eredu bat izango litzateke orduan. Erraza da helbideak osatzea xehetasun-maila handiko ereduko informazio-osagaiak agregatuz; zailagoa suertatzen da, berriz, xehetasun-maila txikiko eredu bat zatitzea informazio-osagai zehatzagotan.

Alabaina, horrek ez du esan nahi xehetasun-maila handiko ereduak direnik aproposenak beti, ez baita hala, bereziki erabilera-testuinguruan ez badago horretarako premiarik; izan ere, informazio-baliabideak muntatzeari eta prozesatzeari dagokionez, konpentsazioak egoten dira efizientzian eta abiaduran. (Ikus koadro gehigarria: AccuWeather zerbitzuari eskatzen zaizkion dauen xehetasun-maila).

Abstrakzio-mailak, bestalde, zera adierazten du: zer neurritan abstraitzen den deskribapen-baliabide bat erabilera-kasu zehatzetatik, hartara baliabide-sorta zabalago batekin egokitu dadin. Adibidez, herrialde askotan, helbidearen osagaietako bati estatua deitzen zaio; beste batzuetan, ordea, probintzia. Bi kontzeptuei tokia egite aldera, kontzeptu konkretu originalak abstraitu ditzakegu, eta deskribapen abstraktuago bat erabili: eskualde administratiboa. Baliabideak eraldatu beharra dagoenean, xehetasun-mailari eta abstrakzioari dagozkion desberdintasunak baliabide-propietateen geruza orotan ager daitezke, horrenbestez, geruza bakoitzean identifikatu eta aztertu behar dira.

AccuWeather zerbitzuari eskatzen zaizkion dauen xehetasun-maila

Azken urteetan, izugarri hazi da AccuWeather zerbitzuari eskatzen zaizkion datuen kopurua, gailu mugikorrek datuak behar baitituzte beren eguraldi-aplikazioak egunean mantentzeko. AccuWeather enpresak, erronkari aurre egiteko, zera egin du: gailu mugikor batek eguraldiari buruzko datuak eskatzen dituenean, mugikorrak bidaltzen dituen GPS koordenatuak mozten dira (xehetasun-maila txikiago batera eraldatzen, alegia). Baldin eta koordenatu moztuekiko datu-eskaera duela gutxi eginiko beste datu-eskaera baten berdin-berdina bada, edukiaren cache-bertsio bat eskaintzen da; ondorioz, askoz eskaera gutxiago jasotzen dituzte egunean, 300-500 milioi gutxiago, zehazki.

10.3.2.4 Eraldaketen zehaztasuna

Lotura-mapak egiteko tresna automatikoen zehaztasuna horien gidalerroetan biltzen diren zehaztapenen eta irizpideen araberakoa izango da. Beharrezkoa izaten da, ia beti, gizakiek egiaztapen eta azterketa intelektualak egitea, eraldaketaren zehaztasuna balioztatzeko. Deskribapen-sistemak desberdinak dira adierazpen-indarrari eta konplexutasunari dagokionez, horregatik, eraldaketarako zailtasunak sor daitezke definizio semantikoak desberdinak direlako, elementu batek zenbat balio behar dituen zehazten duten arauen ondorioz, hierarkia- edo balio-mugen poderioz eta hiztegi kontrolatuak direla medio. Konplexutasun horien eraginez, baldin eta eraldaketa absolutuak egiten badira, mapa guztiz zehatzak ziurtatzeko, zehaztasuna murriztuko da, betiere jatorrizko deskribapen-sistema puskaz aberatsagoa bada xede-sistema baino.

Praktikan, pasabide erlatiboak inplementatzen dira sarri: halakoetan, jatorri-deskribapen bateko elementu guztiak lotzen dira, gutxienez, xede batekin, baliokidetasun semantikoa aintzat hartu gabe. Lotura-maparen kalitatea eta zehaztasuna gutxiagotzen du horrek, eta baliabide-deskribapenerako sistemaren «sinplifikazioa» ekar dezake. Erdibideko loturak ezartzen badira xehetasun- edo abstrakzio-maila desberdinen ondorioz, antolaketa-sistema desberdinen eraldaketek, normalean, baliabide-deskribapen ez hain xeheak edo zehatzak ekarriko dituzte. Ondorioz, elkarreragin-jarduera batzuk ahalbidetzen diren arren (adibidez, bilaketak egitea bi sistemetan aldi berean), lehenago egin zitezkeen elkarreragin-jarduera batzuk eragozten dira. Adibidez, sistema bateko geografia-gaia eta pertsona-gaia fusionatzen badira (adibidez, geografia-gaia: Alberta; pertsona-gaia: Virginia), eta gaiari dagokion kategoria bakar bat sortzen bada (gaia: Alberta, Virginia), beste sistema bateko baliabide-deskribapena eraldatzeko, ezinezkoa izango da bi kategoria horiek bereiztea bilaketetan aurrerantzean.

Geratu eta pentsatu: Sinplifikatzea

Okurritzen zaizu adibideren bat, zeinetan sistema bateko baliabide-deskribapen baten elementuak eraldatu baitira, beste sistema batean eskura egon daitezen elkarreragin-jarduerak egiteko, eta xede-sistemak ez baititu gorde jatorrizko deskribapenean zeuden xehetasun guztiak?