8. Sailkapena: Kategoriei baliabideak esleitzea
Robert J. Glushko, Jess Hemerly, Vivien Petras, Michael Manoochehri ,Longhao Wang ,Jordan Shedlock, Daniel Griffin
8.6 Sailkapen konputazionala
Sailkapen konputazionalarekin loturiko arazo mordoxka bat testuari dagozkio, eta ez da harritzekoa, izan ere, testuak oso garrantzitsuak baitira, nonahi baitaude eta oso erraza baita testuak ordenagailu bidez prozesatzea. Arazoetako batzuk sinpleak dira: adibidez, testu bat zer hizkuntzatan idatzita dagoen identifikatzea; hori argitzeko, bi edo hiru karaktereko sokak hartzen dira aintzat, eta horiek testuan agertzeko probabilitatea alderatzen da beste hizkuntza batzuetako sokekin. Esaterako, euskaraz, soka probableenak hauek dira: «eta», «bat», «da», «zer»… Aitzitik, soka probableenak «the», «and», «to» edo «of» baldin badira, testua ingelesez egongo da, eta «de», «que», «en» edo «el» badira, berriz, gaztelaniaz.
Ostera, ezaugarri gehiago behar baldin badira sailkatu beharreko kasu bakoitza deskribatzeko, eta ezaugarriak ez baldin badira aurreikusteko hain errazak, arazo zailxeagoak azaleratuko dira. Dokumentu baten autore anonimoa zein den argitu nahi bada, autore zehatz batek idatzi dituela jakina den beste dokumentu batzuk aztertu daitezke, zenbait ezaugarri identifikatu –hitzen maiztasuna, esaldiaren egitura eta perpausen luzera–, eta, hala, «idatz-marka» bat sortuko da, idazle hori identifikatzeko balio duena, hatz-markak bezalaxe. 2013an, halako analisi-mota bat erabili zuten zera zehazteko: J.K Rowling-ek, Harry Potter sagaren idazleak, nobela beltz bat idatzi zuela, The Cuckoo’s Calling izenekoa, eta Robert Galbraith ezizenarekin sinatu.
Testuen sailkapenari dagokion beste erronka bat da iritziaren analisia, hau da, testu batean iritzi positiboa edo negatiboa ematen den kasuan kasuko gaiaren harira. Ikerketa akademiko eta komertzial asko egin dira Twitterreko txioen, Facebookeko sarreren, bezeroen arretarako aplikazioetara bidalitako mezuen eta antzeko kontuen iritzia ulertu asmoz. Iritziaren analisia gauza zaila da, izan ere, halako mezuak laburrak izaten dira sarri, eta ez dago aztertu daitekeen material askorik; gainera, sarkasmoa, argota, klixeak eta arau kulturalak direla medio, edukia iluntzen da, eta zailagoa da sailkapena egitea.
Sailkatzaile bat prestatu nahi badugu eta, horretarako, ikaskuntza ikuskatua erabiltzen badugu, funtsezkoa da zera egiaztatzea: prestakuntzarako hautaturiko sorta egokia dela. Demagun sailkatzaile bat prestatzen ari garela, spam mezuak identifikatu ditzan, eta, horretarako, 2000. urteko mezuak erabiltzen ari garela; bada, urte horretako mezu elektronikoetan aipatzen diren gaiak, hitzak eta hizkera oso bestelakoak izango dira aurtengo mezu elektronikoekin alderatuta. Prestakuntza-datu eguneratuak erabiltzea oso garrantzitsua da Twitterrek, Facebook, YouTubek eta enparauek baliatzen dituzten sailkapen-algoritmoetan, halako sare sozialek garaian garaiko ospearen eta joeren bidez sailkatzen eta gomendatzen baitute edukia.
Sailkatzaile konputazionalen «ikaskuntza» modua ikaskuntza automatikoko algoritmoaren araberakoa izango da. 7.5 atalean –Kategoriak inplementatzea– deskribatu genituen, labur-labur, erabaki-zuhaitzak, Naif Bayes ikuspegia, bektoreen ikuspegia eta sare neuralak.
Geratu eta pentsatu: Iritziaren analisia
Batzuetan, eman dezake mugikorreko mezu bat lausengaria dela, baina, egiaz, ez da hala. Demagun United Airlines hegazkin-konpainiaren bezero batek zera txiokatu duela: «Lan bikaina, United. Oraingoan maleta bat bakarrik falta zait»; bezero hori pozik al dago? Mezu batzuetan, sarkasmoaren edo argotaren erabilerak zaildu egiten du mezuan bildutako iritzia zein den argitzea: halako adibiderik otutzen zaizu? Nola idatziko zenuke produktu edo zerbitzu bati buruzko deskribapen negatibo, positibo edo neutral bat, inongo anbiguotasunik gabea? Nola idatziko zenuke sailkatzeko zaila den deskribapen bat?
