10. Elkarreragin-jarduerak baliabideekin
Vivien Petras, Robert J. Glushko, Ian MacFarland, Karen Joy Nomorosa, J.J.M. Ekaterin, Hyunwoo Park, Robyn Perry, Sean Marimpietri
10.4 Elkarreragin-jarduerak inplementatzea
Hurrengo ataletan, antolaketa-sistema digitaletako elkarreragin-jarduera ohiko batzuk deskribatuko ditugu. Hona hemen elkarreragin-jarduerak bereizteko modu bat: elkarreragin-jarduerak gauzatzeko erabili diren algoritmoen sorburuari erreparatzea. Orokorrean, honelako elkarreragin-jarduerak bereiz ditzakegu: informazioa berreskuratzeari dagozkion elkarreragin-jarduerak (bilatzea eta nabigatzea, batez ere), ikaskuntza automatikoari dagozkion elkarreragin-jarduerak (multzokatzea, sailkatzea, erauztea) eta hizkuntzan naturalaren prozesamenduari dagozkion elkarreragin-jarduerak (entitate izendunen identifikazioa, laburpenak, iritziaren analisia, ebazpen anaforikoa). Bestalde, elkarreragin-jarduerak bereizi nahi badira, aztertu daiteke ea, elkarreragin-jarduera gauzatu bitartean, baliabideak aldatzen diren (iruzkinak, etiketak edo puntuazioa gehitzea) edo ez diren aldatzen (bilaketa, multzokatzea). Horrez gainera, elkarreragin-jarduerak bereizteko, horien konplexutasun absolutuari eta erlatiboari errepara dakioke, hau da, zenbat ekintza edo urrats gauzatu behar diren elkarreragin-jarduera osatzeko. Kasu honetan, elkarreragin-jarduerak bereizteko, zera hartuko dugu aintzat: baliabide-deskribapenek zer geruzaren gainean ekiten duten.
3. kapituluan –Antolaketa-sistemetako jarduerak– potentzialtasuna edo portaera-errepertorioa deritzon kontzeptua aurkeztu genuen: baliabidearen berezko propietate aktibagarriak dira, baliabideekin zer egin daitekeen zehazten dutenak. Orain, berriz, beste honi erreparatuko diogu: zer potentzialtasuna (eta muga) ezartzen dituzten baliabide-propietateek elkarreragin-jardueren diseinuari dagokionez. Honen araberakoak izango dira baliabide jakin batek ahalbidetu ditzakeen elkarreragin-jarduerak: baliabidearen barne-egituraren araberakoak eta haren propietate berezkoen zein deskribatuen nolakotasunaren eta helmenaren araberakoak. Dena dela, posible da antolaketa-sistema baterako diseinatu daitezkeen elkarreragin-jarduerak zabaltzea, baldin eta bildumaren propietateak, propietate eratorriak eta horien edozein konbinazio erabiltzen bada. Pentsa dezakegu ezen baliabide-propietateen hiru mota horiek geruzak sortzen dituztela, elkarrengan oinarritzen baitira.
Antolaketa-sistema bat zenbat eta gehiago ibili geruzetan barna, orduan eta gaitasun funtzionalagoak ahalbidetuko dira, eta, halaber, elkarreragin-jarduera gehiago diseinatzeko aukera egongo da. Elkarreragin-jarduera balizkoen gradua, horrenbestez, honen mendekoa izango da: zer neurritan antolatzen, deskribatzen eta sortzen diren propietateak antolaketa-sisteman. Horrek korrelazio bat ezartzen du antolaketaren hedaduraren eta elkarreragin-jarduera balizkoen sortaren artean: Antolaketa eta baliabide-propietate identifikagarrien kopurua zenbat eta zabalagoa izan, orduan eta handiagoa izango da elkarreragin-jarduera «potentzialen» unibertsoa.
Elkarreragin-jarduerak lau geruzatan bereiz daitezke: Baliabide indibidualen propietateetan oinarrituriko elkarreragin-jarduerak
Baliabideen propietateak xehe-xehe deskribatu ditugu 4. eta 5. kapituluetan. Baliabidea bera deskribatzen duen informazio edo propietate oro erabil daiteke elkarreragin-jarduera bat diseinatzeko. Baldin eta antolaketa-sistema batean ez bada propietate bat deskribatzen edo propietate hori ez badagokio baliabide jakin batzuei, ezinezkoa izango da informazio jakin horren premia duen elkarreragin-jarduera inplementatzea. Adibidez, Shopstyle xehekako gunean, baldin eta baliabide-deskribapenetan ez bada baliabidearen kolorea aipatzen, ezin izango da bilaketa fidagarririk egin propietate horren arabera.
Baliabideak agregatzen direnean sortzen dira bilduman oinarritutako propietateak (ikus 1. kapitulua). Baliabide indibidualen propietateak eta bildumaren batez besteko propietateak alderatu nahi badira elkarreragin-jarduera baten bidez (esate baterako, liburutegi bateko argitalpenen batez besteko adina, edo xehekako denda bateko ondasunen batez besteko prezioa), ezinbestekoa da bildumaren batezbestekoa kalkulatzea.
Eratorritako edo kalkulatutako propietateak ez dira baliabideen edo bildumen bere-berezko propietateak; aitzitik, kalkulatu egin behar dira, kanpoko informazioaren edo tresnen laguntzarekin. Erabilera-maiztasunaren arabera kalkulatu daiteke, esaterako, baliabide digital baten ospea. Ondoren, propietate kalkulatu hori erabil liteke sarbideari dagokion elkarreragin-jarduera bat diseinatzeko, zeinak baliabideak bilatzen baititu, horien ospea aintzat hartuta. Eratorritako propietateei dagokionez, erabilera garrantzitsu bat da baliabide ez-testualak aztertzea, hala nola irudiak edo audio-fitxategiak. Edukian oinarrituriko elkarreragin-jarduera horien kasuan, baliabideen propietate intrintsekoak –hala nola kolorearen banaketa– konputazio bidez eratortzen dira, eta baliabide-propietate gisa gordetzen. Ondoren, bilaketak egin daitezke kolore-banaketaren arabera.
Baliabideak konbinatzea, eta horien propietate indibidualak, bildumari dagozkion propietateak eta propietate eratorriak uztartzea, elkarreragin-jarduerak diseinatzeko modu bat izan daiteke; hala, elkarreragin-jardueren oinarri gisa, aintzat hartuko lirateke propietate uztartuak, antolaketa-sistema bakar batek eta bertako baliabideek ez dauzkatenak. Horren ondorioz, zenbait elkarreragin-jarduera ahalbidetzen dira, antolaketa-sistema indibidualek ahalbidetu ezin ditzaketenak, beren xedeak eta eskaintzen dituzten baliabide-deskribapenak direla-eta.
Elkarreragin-jarduera bat inplementatu daitekeen edo ez, honen araberakoa da: baliabide-propietateen zer geruza txertatu den antolaketa-sisteman. Elkarreragin-jardueraren inplementazio-modua, berriz, honen mende dago, bereziki antolaketa-sistema digitaletan: zer algoritmo eta teknologia dauden eskura, baliabideetara edo baliabide-deskribapenetara iristeko.
Liburu honetako adibideetan, testu-baliabideak eta baliabide-deskribapenak aipatu ditugu batik bat. Ondasun fisikoei (adibidez, gaileta-marka kutun bat aurkitzea supermerkatuan) edo baliabide digital multimedia ez-testualei (adibidez, Berkeley unibertsitatearen logoaren irudiak aurkitzea) dagokien informazioa berreskuratzeko, aldiz, antzeko elkarreragin-jarduerak egin behar dira, baina algoritmo desberdinak eta baliabide-propietate desberdinak erabiliz.
10.4.1 Kasuen propietateetan oinarrituriko elkarreragin-jarduerak
Kategoria honetako elkarreragin-jarduerak baliabide-kasu indibidualen mendekoak dira soilik. Sarritan, behereneko geruza honetako baliabide-propietateak erabiltzea bat dator elkarreragin-jarduerako ekintza oinarrizkoen konbinazioarekin.
10.4.1.1 Berreskurapen boolearra
Bilaketa boolearretan, bilaketak honela zehazten dira: informazio-premia adierazten da, eta boolear logikako lokailuak baliatzen dira elementuak uztartzeko (ETA, EDO, EZ). Bilaketa, orduan, baliabide-propietate indibidualekin alderatzen da (terminoekin, gehienetan); eta konparazioaren emaitza EGIA edo GEZURRA izaten da. EGIA emaitzak hartzen dira bilaketaren emaitza gisa, eta gainerako guztiak, berriz, bazterrean uzten dira. Boolear bilaketetan, ez dira baliabideak konparatzen edo mailakatzen, hortaz, emaitza guztiak baliozkotzat jotzen dira neurri berean. Boolear bilaketak badu abantaila bat: emaitza aurreikusgarriak eta azaltzeko errazak ematen dituela. Alabaina, boolear ereduaren emaitzak ez direnez garrantziaren arabera mailakatzen, erabiltzaileek emaitza guztien deskribapenak aztertu behar dituzte, emaitza erabilgarrienak identifikatzeko.
10.4.1.2 Etiketak / Oharrak
Erabiltzaile batek, gizakia zein agente konputazionala izan, etiketak edo oharrak gehitzeari dagokion elkarreragin-jarduera bat egiten badu, informazioa erantsiko dio baliabideari berari edo baliabide-deskribapenari. Esate baterako, ohikoa izaten da baliabidea zein baliabide-deskribapena kokatzea, etiketa edo ohar baten bidez, eta erabiltzaileak propietateren bat gehitzea. Horren ondoriozko aldaketak antolaketa-sisteman gordetzen dira, eta beste elkarreragin-jarduera batzuetan eskura egon daitezke (hala nola etiketa gehigarriak erabiltzen direnean bilaketa hobetzeko). Halaber, erabiltzaileek informazioa gehitzen badiote baliabideei elkarreragin-jarduera baten bidez, sistemaren kalitatea areagotu daiteke, eta haren erabilgarritasuna hobetu.
10.4.2 Bildumaren propietateetan oinarrituriko elkarreragin-jarduerak
Kategoria honetako elkarreragin-jarduerek bildumari dagozkion propietateak erabiltzen dituzte, elkarreragin-jarduerak hobetzeko xedez; esate baterako, bilaketako mailakatzea hobetzeko edo bildumako batezbestekoen konparazioa ahalbidetzeko.
10.4.2.1 Berreskurapen mailakatua, bektore-espazioaren edo eredu probabilistikoen bidez
Berreskurapen mailakatuaren bidez, bilaketa baten emaitzak antolatzen dira, bilaketan adierazitako informazioarekiko duten garrantziaren arabera. Bektore-espazioari dagokion ikuspegia eta Ikuspegi probabilistikoa aurkeztuko ditugu hemen, zeinek baliabide-propietate indibidualak erabiltzen baitituzte, hala nola termino baten agerpena edo erabilera-maiztasuna, eta termino horien agerpenaren zein maiztasunaren batezbestekoa bilduma osoarekiko; horrela kalkulatzen dute baliabide bati zer maila esleituko zaion bilaketaren emaitzetan.
Boolear eredua sinplea da oso, horregatik, erraza da hura ulertzea eta inplementatzea; nolanahi ere, baliabideen garrantziari dagokionez, nozio binario bat darabil, zeina ez baitator bat gure uste batekin: gure iritziz, termino guztiek ez dute neurri berean iradokitzen zeri buruzkoa den dokumentu bat. Gerard Salton-ek bektore-espazioaren eredua asmatu zuen, informazio-berreskurapenari dagokiona, garrantziaren neurri jarraikor bat ahalbidetzeko. Bektore-espazioaren ereduan, antolaketa-sistemetako baliabideak eta bilaketak termino-bektore gisa errepresentatzen dira. Baliabideak eta bilaketak, horrenbestez, bektoreen norabideen arabera alderatzen dira n dimentsioko espazio batean (bilduman zenbat termino, hainbat dimentsio), uste honi jarraituz: espazioan gertu badaude, hurbil egongo dira esanahian ere.
Bektore-espazioaren ereduaren kontrakarrean, eredu probabilistikoa bestelako ideia batean oinarritzen da: hartzen dira bilaketa bat eta baliabide edo baliabide-deskribapen bat (testu bat, gehienetan), eta, probabilitate-teoriaren bitartez, estimazioa egiten da ea zer neurritan den probablea baliabide bat garrantzitsua izatea informazio-premiari dagokionez. Eredu probabilistikoan, informazio-premiarekiko duten garrantzia-probabilitatearen arabera mailakatzen dira emaitzak; hortaz, garrantzitsua izateko probabilitate handiena duen baliabidea jartzen da maila gorenean. Bektore-espazioaren ereduan, ordea, bilaketari dagokion termino-bektorearen antz handiena duen baliabidearen termino-bektorea jartzen da lehen postuan, maiztasunaren zenbaketa aintzat hartuz.
Bi ereduek erabiltzen dute baliabide-propietate intrintseko bat: terminoen maiztasuna, zeinak neurtzen baitu zenbat aldiz agertzen den termino hori baliabide batean. Intuizioak adierazten du ezen terminoen maiztasunak ahalmena duela, bere kabuz, baliabide bat laburbiltzeko. «Automobila» terminoa maiz agertzen bada baliabide batean, ondoriozta dezakegu baliabidean aipatzen den gaietako bat automobilak direla, eta «automobila»ri lotutako bilaketaren bat egiten badugu, baliabide hori agertuko zaigula emaitzen artean. Terminoen maiztasunari lotuta, arazoak sortzen dira baldin eta baliabide-deskribapenek luzera desberdinak badituzte, eta hala gertatzen da maiz antolaketa-sistemetan. Baliabide-deskribapenen luzera desberdinek terminoen maiztasunaren zenbaketari eragingo liokete, dokumentu luzeagoak garrantzitsuagotzat joz orokorrean; arazo horri aurre egiteko, termino-bektoreen luzerak normalizatzen dira, deskribapenaren luzeraren ehuneko gisa, zenbaketa gordin bat egin beharrean.
Baliabide batek bilaketa batekiko zelako garrantzia duen kalkulatu nahi badugu eta, horretarako, terminoen maiztasunari bakarrik erreparatzen badiogu, desabantaila bat izan dezakegu: termino jakin bat bildumako baliabide guzti-guztietan agertzen bada, ez da baliagarria suertatuko baliabideak bereizteko. Adibidez, bildumako baliabide guzti-guztietan aipatzen badira automobilak, baliabide guztiak izan daitezke garrantzitsuak «automobila»ri dagokion bilaketa batean. Beraz, mekanismo gehigarri bat erabili behar litzateke baliabide gehiegitan agertzen diren terminoak zigortzeko. Horretarako, hain zuzen ere, alderantzizko dokumentu-maiztasuna baliatzen da, zeinak adierazten baitu zenbat aldiz agertzen den termino bat edo propietate bat bilduma batean.
Alderantzizko dokumentu-maiztasuna (idf) deritzon propietatea bildumei dagokie. Dokumentu-maiztasunak (df) zera neurtzen du: termino jakin bat biltzen duten baliabideen kopurua. Alderantzizko dokumentu-maiztasuna, berriz, honela definitzen da: idft = log(N/dft), N delarik dokumentu-kopuru osoa. Termino bat zenbat eta dokumentu gehiagotan agertu, terminoaren alderantzizko dokumentu-maiztasuna murriztu egingo da; hala, bilaketa bateko terminoen garrantzia desberdintzeko faktore bat izango dugu. Esate baterako, bilduma batean automobilei buruzko baliabideak biltzen badira, eta informazioa berreskuratu nahi badugu elkarreragin-jarduera baten bidez, zera egin daiteke «automobil istripua»rekin loturiko bilaketa kudeatzeko: «automobila» terminoaren garrantzia gutxitu eta eta «istripua» terminoaren garrantzia handiagotu emaitza-sortan bildutako baliabideei dagokienez.
Bilaketetako lehen urrats gisa, bilaketako terminoak alderatzen dira baliabide deskribapenekin. Bektore-espazioaren ereduan, baliabide-deskribapenen eta bilaketa-bektoreen arteko antzekotasuna kalkulatzen da, terminoen maiztasuna eta alderantzizko dokumentu-maiztasuna uztartuz; modu horretan, bilaketarekiko duten garrantziaren arabera mailakatzen dira baliabideak.
Mailakatze-printzipio probabilistikoak zutarri matematiko zein teoriko sendoagoak ditu bektore espazioaren mailakatze-printzipioak baino. Hala ere, garrantzia-probabilitatea neurtzeko metodo ugari proposatu izan dira. Ezagunak dira, besteak beste, Okapi BM25, hizkuntza-ereduak eta ausazkotasunarekiko dibergentziaren ereduak. Eredu horiek nork bere erara kalkulatzen dute baliabide jakin baten garrantzia-probabilitatea, eta konplexutasun matematiko desberdina dute; hala ere, kalkuluak egiteko garaian, den-denek erabiltzen dituzte baliabide-propietate intrintsekoak, hala nola terminoen maiztasuna, bai eta bildumei dagozkien propietateak ere, hala nola alderantzizko dokumentu-maiztasuna.
10.4.2.2 Sinonimoen hedapena, indexatze semantiko sorraren bidez
Bektore-espazioen ereduaren aldaera bat da indexatze semantiko sorra; aldaera horretan, teknika matematiko bat erabiltzen da –balio bakunen deskonposizioa deritzona–, termino-bektore antzekoak konbinatzeko eta, horrela, bektore-kopuru txikiago bat sortzeko, zeinek beren «zentro estatistikoa» deskribatzen baitute. Metodo hori, batez ere, bildumei dagozkien propietateetan oinarritzen da, adibidez, bildumetako terminoen agerpen aldiberekoan. Bildumako baliabide guztietan agertzen diren terminoak oinarritzat hartuz, metodoak kalkulatzen du zer termino izan daitezkeen elkarren sinonimoak, edo zer terminok izan dezaketen loturaren bat beren artean. Beste era batera esanda, indexatze semantiko sorrak gaika multzokatzen ditu terminoak. Demagun «arrosak» eta «loreak» terminoak elkarrekin agertu ohi direla maiz bilduma jakin bateko baliabideetan. Bada, indexatze semantiko sorraren metodologiak, estatistikaren bidez, termino horiek lotuta daudela identifikatzen du, eta «arrosak» eta «loreak» terminoen errepresentazioa ordezkatzen du «semantika sorreko» termino kalkulatu batekin, zeinak bi terminoen arteko lotura islatzen baitu, baliabide-deskribapenaren dimentsionaltasuna murriztuz (ikus 5.3.4.4 atala: Hiztegiaren kontrola, dimentsionaltasunaren murrizketa gisa). Bilaketak osagai-sorta berdinetara itzultzen direnez, «arrosak» terminoa dakarren bilaketa batek orobat berreskuratuko ditu «loreak» terminoa dakarten baliabideak. Horren ondorioz, baliabide bat garrantzitsutzat joa izateko aukera areagotzen da, bilaketaren terminoak eta baliabide-deskribapenaren terminoak guztiz bat ez badatoz ere; hori dela-eta, teknika horrek bilaketaren kalitatea hobetu dezake.
Bilaketaren kalitatea hobetu nahi bada, beste modu bat dago: termino edo propietate antzekoak gehitzea, hiztegi kontrolatu edo sailkapen-sistema batetik. Bilaketa bat lotu badaiteke hiztegi kontrolatu bateko terminoekin edo sailkapeneko klaseekin, hiztegiaren zein sailkapenaren egitura semantiko berezkoak ahalmena izango du termino gehigarriak (zabalagoak, estuagoak, sinonimoak) iradokitzeko; horrelako terminoak agertzen baldin badira baliabideetan, horrek adieraz dezake baliabide horiek garrantzitsuak direla bilaketa batekiko.
10.4.2.3 Egituran oinarritutako berreskurapena
Baliabide-deskribapen batean baliabidearen barne-egitura errepresentatzen baldin bada, bilaketa-elkarreraginak horixe erabil dezake baliabidearen zati espezifikoagoak berreskuratzeko. Horrela, bilaketa parametrikoak edo eremuaren araberakoak egin daitezke, zeinetan osagai edo baliabide-propietate zehatz bat bilatu baitaiteke, beste propietateei jaramon egin gabe. Adibidez, antolaketa-sistema bibliografiko batean, «Shakespeare» terminoa bilatu daiteke izenburuari dagokion eremuan, eta, hala, izenburuan Shakespeare dakarten liburuak bakarrik hautatuko dira, eta ez Shakespearek idatzitakoak. Baliabide guztiek egitura berdina erabiltzen dutenez, bildumari dagokion propietate bat izango da egitura.
10.4.2.4 Multzokatzea / Sailkapena
Multzokatzea (ikus 7.5.3.3 atala) eta sailkapen konputazionala (ikus 8.7 atala), elkarreragin-jarduerak dira bi-biak, eta baliabide-propietate indibidualak zein bildumei dagozkienak baliatzen dituzte beren jarduna gauzatzeko. Multzokatzean (ikaskuntza ez-ikuskatua), baliabide guztiak konparatzen eta taldekatzen dira, elkarren artean duten antzekotasunaren arabera. Sailkapen konputazionalean (ikaskuntza ikuskatua), baliabide indibidual bat edo baliabide-talde bat konparatzen da antolaketa-sistema bateko sailkapen edo hiztegi kontrolatu jakin batekin, eta baliabidea esleitzen zaio haren antz handiena duen klaseari edo deskribatzaileari. Sailkapen-elkarreraginaren beste adibide bat da spam mezuen atzematea (ikus 8.7 atala). Autore-identifikazioari dagozkion teknikak eta ezaugarritze-algoritmoak ahalegintzen dira lan jakin baten autorea zein den zehazten (sailkapen-elkarreragina) edo lan bat idatzi duen edo idatzi behar lukeen autore-mota ezaugarritzen (multzokatze-elkarreragina).
10.4.3 Eratorritako propietateetan oinarritutako elkarreragin-jarduerak
Kategoria honetako elkarreragin-jarduerek eratortzen edo kalkulatzen dituzten propietateak edo ezaugarriak ez dira baliabideen edo bildumaren berezko propietateak. Kanpoko datu-iturriak, zerbitzuak eta tresnak erabiltzen dira halako elkarreragin-jarduerak ahalbidetzeko. Baldin eta elkarreragin-jarduerak eraikitzen badira kanpotik eratorritako propietateak hartuz baldintza gisa, normalean areagotu egiten da elkarreragin-jardueren kalitatea, sistemak bere kontestuaren gainean duen kontzientzia handiagotuz.
10.4.3.1 Ospean oinarritutako berreskurapena
Xehekako dendetako jardueren aztarnei jarraitzea
Xehekako saltokien analisi-konpainiek, kamerak eta bestelako sentsoreak erabiliz, bezeroen jarduna aztertzen dute, eta berotasun-mapak sortzen dituzte, zeinak erakusten baitute zer eremutan dagoen oinezko trafiko gehien, eta zer itemekin izaten den elkarreragin gehien.
(Argazkia: m01229 deritzon Flicker erabiltzailea. Creative Commons lizentziaren pean. Berotasun-maparen ilustrazioa: Ian MacFarland).
Googlen PageRank algoritmoa da (ikus 6.5.3 atala) webguneen ospea neurtzeko neurketa-modu ezagunena. Honako ideia honetan oinarritzen da: webguneari erreferentzia egiten dioten esteka-kopuruaren araberakoa izango da webgunearen ospea. Halere, webgune baten PageRank zein den kalkulatzeko, erreferentzia egiten dioten estekak zenbatzea baino ariketa matematiko sofistikatuagoak gauzatu behar dira, esteken jatorria garrantzitsua delako orobat. Alegia: estekaren sorburua kalitatezko webgune bat baldin bada, PageRank delakoa handituko du; kalitate eskaseko webgune batetik badator, ordea, kalte egingo dio.
Web orrietarako informazio-berreskurapen eredu batek PageRank erabil dezake, zehazte aldera zein den web orriaren balioa bilaketari dagokionez. Googlek eta beste web bilatzaile batzuek, web orri bat azkenean ere bilaketa-emaitzetako zer mailatan agertuko den zehazteko, mailakatze-ezaugarri asko erabiltzen dituzte, eta PageRank ospea neurtzeko moduetako bat baizik ez da.
Baliabideak mailakatzeko, badira beste ospe-neurketa batzuk. Adibidez, honako faktore hauek aztertu daitezke: erabilera-maiztasuna, erosketa-maiztasuna (produktuen kasuan), zenbat aldiz garbitu den arropa bat garbigailuan, eta, are, garbitzeko zorian ote dagoen oraintxe bertan.
10.4.3.2 Aipuetan oinarritutako berreskurapena
Aipuetan oinarritutako berreskurapena informazio-sistema bibliografikoetan erabiltzen da, eta teknika sofistikatua eta eraginkorra da oso. Baliabide bibliografikoak elkarri lotuta dauden aipuen bidez, hau da, argitalpen batean beste argitalpen bat aipatzen delako. Baliabide bibliografiko batean beste baliabide bat aipatzen bada, seguru asko bi baliabide horien gaiek zerikusia izango dute. Aipuetan oinarritutako bilaketen gakoa zera da: baliabide ezagun bat erabiltzen da informazio-premia gisa, eta hari lotutako beste baliabide batzuk berreskuratzen dira aipuen bidez.
Aipuetan oinarritutako bilaketa inplementatzeko, zera egin daiteke: jatorrizko baliabidearen aipuei jarraitu edo jatorrizko baliabidea aipatzen duten baliabideak aurkitu. Hona hemen beste konparazio-teknika bat: akoplatze bibliografikoaren printzipioa; printzipio horri jarraituz, informazioa berreskuratzeko sistemak honako baliabideak bilatzen ditu: jatorrizko baliabideak aipatzen dituen baliabide berak aipatzen dituztenak. Halaber, posible de aipuetan oinarritutako bilaketen emaitzak mailakatzea beste faktore batzuen arabera, adibidez, argitalpen batek jaso dituen aipuen arabera (egiaz, printzipio hori da PageRanken ospe-neurketaren sorburua).
10.4.3.3 Itzulpena
Itzulpenaren bitartez, baliabideak beste hizkuntza batera eraldatzen dira, arrakasta-maila desberdinarekin. Antolaketa-sistema desberdinetako baliabideak uztartzen direnean, beste elkarreragin-jarduera batzuk ahalbidetzeko moduan, eraldaketa horiek baliabideak berreskuratu aurretik gertatzen dira; itzulpenaren kasuan, ordea, berreskurapenaren edo kokapenaren ondoren eraldatzen dira baliabideak. Hiztegiak edo corpus paraleloak dira itzulpena bideratzen duten kanpo-baliabideak.
Hiztegian oinarrituriko itzulpenetan, baliabide-deskribapeneko termino indibidual bakoitza (edo, batzuetan, esaldi bakoitza) hiztegian egiaztatzen da, eta ordain probableenarekin ordezkatzen. Itzulpen sinple bat da hori, ezin baititu aintzat hartu perpaus gramatikalen egitura ez eta kontestua ere. Testuinguruak, hain zuzen, eragin handia izan dezake ordain probableena zein den erabakitzeko garaian: avocat deritzon frantses hitza, adibidez, abokatu gisa itzuli behar litzateke antolaketa-sistema gehienetan, baina ez, ordea, sukaldaritza-liburuen bilduma batean, zeinetan, ziur aski, ahuakate izango baita ordain egokiena.
Corpus paraleloek modua eskaintzen dute halako erronkei aurre egiteko: testu berdinak edo antzekoak dira, beste hizkuntza batzuetan idatzita daudenak. Adibidez, Biblia edo Nazio Batuen bilera-protokoloa adibide ezagunak dira, hainbat hizkuntzatan existitzen baitira paraleloan.
10.4.4 Baliabideen uztarketan oinarritutako elkarreragin-jarduerak
Kategoria honetako elkarreragin-jardueretan antolaketa-sistema desberdinetako baliabideak uztartzen dira batez ere, antolaketa-sistema bakar batek ahalbidetu ezin izango lituzkeen zerbitzuak eskaintzeko. Batzuetan, antolaketa-sistema desberdinak sortzen dira elkarri lotuta dauden baliabideekin, eta nahita egiten da, gainera, informazio pertsonalaren pribatutasunari eusteko edo negozioaren interesak babesteko. Antolaketa-sistemak argitara emanez gero, baliteke nahi gabeko ondorioak eragitea, baldin eta garatzaile buruargiak ohartzen badira ordura arte lotu gabeko datu-iturriak konektatzearen potentzialaz.
10.4.4.1 Mashup-ak
Mashupetan, hainbat baliabidetako datuak konbinatzen dira; horrela, elkarreragin-jarduerak informazio berria eskain dezake, konbinaziotik eratortzen dena. Adibidez, salgai dauden etxeen iragarkiak eta delitu-estatistikak uztartu izan dira, modu grafikoan, mapa batean; modu horretan, auzo seguruetan zer etxe dauden salgai ikus daiteke.
Etxebizitza eta delitu-estatistiken mashupa
Trulia deritzon web orrian, zeina higiezinen salerosketari eskainia baitago, mashupak sortzen dituzte bizitoki berri baten bila dabiltzanei axola zaizkien hainbat eratako faktoreak kontuan hartuz, hala nola delitu-estatistikak, eskolak, etxeen prezioa eta distantziak.
(Pantailaren irudia: Ian MacFarland)
Mashupak, normalean, baliabidearen mailan gertatzen dira, ad hoc konbinazioak eginez; horregatik, ez dute eraginik antolaketa-sistemen barne-egituran edo hiztegien uztarketan, eta tresna eraginkorrak izan daitezke webean prototipoak azkar egiteko. Bestalde, hori dela-eta, ez dira bereziki fidagarriak ez sendoak, izan ere, oinarrian dauzkaten antolaketa-sistemak aldatu bezain laster, mashupen operazioak huts egin dezake.
10.4.4.2 Datu estekatuen berreskurapena eta Baliabideak deskubritzea
9.4.3 atalean adierazi genuen eran –Web Semantikoaren mundua–, datu estekatuek loturak ezartzen dituzte antolaketa-sistemen teknologiei dagozkien baliabide desberdinen artean; horretarako, identifikatzaile estandar eta bakarrak (URIak) erabiltzen dituzte. Ikuspegi sinple horren bitartez, sistema desberdinetako baliabideak konektatzen dira elkarren artean, eta, modu horretan, bilaketak egin daitezke bi sistemak barnean hartuz. Adibidez, baliteke bi online salmenta-gunetan Martha Stewarten ohe-estalki bat saltzea, eta biek ala biek bezeroa bideratzea Martha Stewarten webgunera, zeinetan deskribatzen baita nolakoa den ohe-estalkia. Xehekako bi guneek identifikatzaile bakar bat erabiltzen dute, zeinak Martha Stewarten webgunera bideratzen baitu bezeroa.
Baliabideak deskubritzea edo datu estekatuak berreskuratzea bilaketa-elkarreraginak dira, eta sarea (edo web semantikoaren grafikoa) zeharkatzen dute, estekak konektatuz, semantikaren aldetik lotuta dauden baliabideak deskubritzeko xedez. Horrenbestez, bilaketa-elkarreragin batean, Martha Stewarten webgunera bideratzen zaituen xehekako salmenta-gunearen esteka erabil daiteke, ohe-estalkia saltzen duen beste gunera joateko, bai bailiteke bigarren gunean eskaintza merkeago edo komenigarriago bat eskaintzea.
