FILOZOFSKI FAKULTET TOMISLAV IVANJKO PRISTUP ANALIZI I PRIMJENI KORISNIČKOG OZNAČIVANJA U PREDMETNOM OPISU BAŠTINSKE GRAĐE DOKTORSKI RAD Zagreb, 2015. FILOZOFSKI FAKULTET TOMISLAV IVANJKO PRISTUP ANALIZI I PRIMJENI KORISNIČKOG OZNAČIVANJA U PREDMETNOM OPISU BAŠTINSKE GRAĐE DOKTORSKI RAD Mentor: dr. sc. Sonja Špiranec, izv. prof. Zagreb, 2015. . FACULTY OF HUMANITIES AND SOCIAL SCIENCES TOMISLAV IVANJKO ANALYSIS AND IMPLEMENTATION OF FOLKSONOMIES IN SUBJECT INDEXING OF HERITAGE MATERIALS DOCTORAL THESIS Supervisor: assoc. prof. Sonja Špiranec, PhD Zagreb, 2015. Mojim roditeljima, za njihovo odricanje i Maji, za njenu potporu. ZAHVALE U prvom redu zahvaljujem se svojoj mentorici, prof. dr. sc. Sonji Špiranec, na svim kritičkim primjedbama i pomoći kod vođenja ne samo ovog rada, već i niza drugih radova na kojima smo zajedno surađivali. Zahvaljujem se i svojoj voditeljici projekta i pročelnici Odsjeka, prof. dr. sc. Jadranki Lasić- Lazić na iznimnom razumijevanju i potpori svim mojim istraživačkim idejama, kao i na stvaranju pozitivnog i poticajnog okruženja za mlade istraživače na Odsjeku. Zahvaljujem se i prof. dr. sc. Banek Zorici koja je od prvih dana naše suradnje inzistirala na najvišim standardima znanstvenog rada te je imala strpljenja i razumijevanja za sve moje pogreške. Zahvaljujem se i dr. sc. Goranu Zlodiju na nesebičnoj pomoći oko muzeološkog aspekta samog rada, kao i na povezivanju s muzejskom zajednicom te na velikoj pomoći njegovih suradnika bez čega ovaj rad ne bi bio moguć. Zahvaljujem ravnateljici Hrvatskog povijesnog muzeja što je dopustila korištenje materijala u istraživanju, a posebno višoj kustosici Andreji Smetko na profesionalnom, ali iznad svega altruističnom pristupu u našoj suradnji, čime je značajno olakšala proces istraživanja i pridonijela kvaliteti disertacije. Zahvaljujem se i dr. sc. Krešimiru Zauderu koji je svojim ekspertnim poznavanjem Pythona omogućio implementaciju programskih rješenja te je velikim teorijskim znanjem, konstruktivnim primjedbama i rješenjima značajno utjecao na kvalitetu ovog rada. Zahvaljujem se i kolegama dr. sc. Vedranu Juričiću i dr. sc. Nikoli Ljubešiću na strpljenju i pomoći u implementaciji istraživanja, bez čijih bi tehničkih rješenja istraživanje teško bilo izvedivo. Ovaj rad ne bi bio moguć bez suradnje ostalih kolega od kojih sam tijekom rada na Odsjeku mnogo naučio, kao i kolega iz AKM zajednice. Tu posebno moram istaknuti i zahvaliti se dr. sc. Mirni Willer koja je tijekom naše suradnje još od studentskih dana svojim velikim znanjem i širinom pogleda na polje istraživanja u velikoj mjeri pridonijela razvijanju mojih istraživačkih afiniteta. Zahvaljujem se i Damiru Rossiniju na uloženome trudu u objašnjavanju i pomoći oko primjene statističkih metoda u radu te Petri Benčec na velikoj pomoći oko kvalitativnih analiza kao i napora u poboljšanju gramatičke ispravnosti teksta. Na kraju se zahvaljujem i svojoj zaručnici Maji na razumijevanju i strpljenju u stresnim razdobljima istraživanja, kao i velikoj stručnoj potpori u izradi samog rada. SAŽETAK U ovom doktorskom radu ispitan je potencijal primjene korisničkog označivanja u predmetnom opisu baštinske građe kao metode poboljšanja pristupa i pretrage, kao i poboljšanja opisa i komplementiranja tradicionalnim sustavima za organizaciju znanja. Metodom nabave iz mnoštva i implementacijom igre sa svrhom prikupljene su ukupno 14402 korisničke oznake na 80 baštinskih predmeta, raspoređenih u 4 zbirke: arhivska, knjižnična, muzejska građa te fotografije. Statistička analiza pokazala je kako ne postoje značajne razlike u broju dodjeljivanja i broju dodanih korisničkih oznaka na razini zbirke te kako veći broj dodjeljivanja ne pokazuje korelaciju s veličinom korisničkog rječnika kojim se neka zbirka opisuje. Lingvistička analiza pokazala je kako se tipična korisnička oznaka sastoji od jedne do dvije riječi te je opća imenica u nominativu jednine, čime pokazuje obilježja klasičnih predmetnica. Značenjska analiza pokazala je kako je najveći broj oznaka dodan na generičkoj razini, tj. na razini koja ne zahtijeva specifično znanje već samo znanje prepoznavanja. U nastavku istraživanja uspoređene su predmetnice dodane od strane stručnjaka s korisničkim oznakama koje su prikupljene putem aplikacije na razini pojedinog predmeta. Prikazana je, implementirana i testirana na prikupljenom uzorku, nova metoda usporedbe implementacijom algoritamskog rješenja u programskom jeziku Python. Završni dio istraživanja u kojem su korisničke oznake nakon algoritamske obrade vraćene predmetnom stručnjaku na ocjenu korisnosti u predmetnom opisu građe, postavio je model koji omogućava relevantnim korisničkim oznakama za svaki predmet da se nalaze u setu oznaka koje stručnjak ocjenjuje kroz definiranje mjere i praga relevantnosti korisničke oznake za pojedini predmet. Model donosi novi pristup kojim se prag frekvencije uključenih korisničkih oznaka postavlja na vrijednost gornje granične vrijednosti u distribuciji korisničkih oznaka za pojedini predmet. Pokazalo se kako je predmetni stručnjak koji je ocjenjivao korisnost prikupljenih korisničkih oznaka dodanih arhivskoj, muzejskoj i fotografskoj građi (na skali od 1 do 5) vraćene oznake ocijenio prosječnom ocjenom 3.57 što pokazuje visoku primjenjivost samog modela za navedene vrste građe. Zaključni dio rada sumira glavne rezultate rada te se predlaže model analize i primjene korisničkog označivanja u predmetnom opisu baštinske građe. KLJUČNE RIJEČI Korisničko označivanje, baštinska građa, folksonomija, predmetna obrada, društveni softver SUMMARY This thesis explores possible approaches in analysis and implementation of folksonomies in subject indexing of heritage materials, in order to examine user tags as a method complementing traditional subject access in the online environment. An in-depth analysis of the research field, identifying key authors, papers and concepts was undertaken along with the presentation of main models and structure of folksonomies. The context and particularities of implementing social tagging in the description of heritage materials as well as of crowdsourcing and games with a purpose were explored, covering selected heritage projects that succeeded in successful implementation of this notions. Research was undertaken using crowdsourcing methods, namely Game With a Purpose, a corpora of 14402 user tags on selected 80 heritage objects divided into 4 categories (library, archive, museum and photographs) was gathered for analysis. Statistical analysis of gathered corpora has shown that after a certain threshold is achieved, vocabulary base remains steady with only frequencies increasing. Linguistic analysis showed that a typical user tag consists of one word or phrase in singular, while content analysis identified most user tags as generic descriptors without added specific knowledge. User tags were compared to index terms from subject experts using the exact matching methods. A model of determining relevant user tags for a particular heritage object was defined and user tags obtained as a result were given back to the subject expert to evaluate their usefulness. Finally, a model of analysis and implementation of folksonomies in subject indexing of heritage materials was presented. KEYWORDS: Social tagging, folksonomies, subject access, heritage materials, crowdsourcing, GWAP, social software STRUKTURIRANI SAŽETAK Doktorski rad na 282 numerirane stranice sadrži tekst raspoređen u 7 dijelova: Uvod, Predmetni pristup zabilježenom znanju, Organizacija znanja u mrežnom okruženju, Korisničko označivanje kao metoda organizacije znanja u Web 2.0 okruženju, Ključni aspekti primjene korisničkog označivanja u baštinskom okruženju, Istraživanje korisničkog označivanja u opisu baštinske građe i Zaključak iza kojih slijede Popis literature, Prilozi, Popis tablica, Popis slika, Životopis i popis javno objavljenih radova autora. Rad sadrži 92 slike, 29 tablica te popis citirane literature od 143 bibliografske jedinice. U Uvodu se daje uvod u temeljne pojmove organizacije znanja (podatak, informacija, znanje) uz poseban naglasak na problematiku obrade i karakteristike zabilježenog znanja. U prvom poglavlju naslovljenom Predmetni pristup zabilježenom znanju najprije se u sažetom obliku prikazuje povijesni razvoj predmetnog pristupa organizaciji znanja, a zatim temeljne osobine tradicionalnog pristupa predmetnoj obradi u području informacijskih znanosti. Nakon toga, izloženi su temeljni modeli tradicionalnog pristupa gdje je predmetni stručnjak u središtu procesa kao agent predmetne obrade. Poglavlje zatim donosi prednosti i nedostatke, kako prirodnog jezika, tako i kontroliranog jezika u postupku predmetne obrade te navodi temeljne probleme tradicionalnog pristupa obradi. Drugo poglavlje naslovljeno Organizacija znanja u mrežnom okruženju daje pregled novih izazova s kojima je suočena predmetna obrada u mrežnom okruženju, gdje se fokus agenta koji provodi označivanje prebacuje s predmetnog stručnjaka (čiji su alati tezaurusi, klasifikacije i ontologije) na korisnika, ostvarujući ideju demokratskog pristupa informacijama. U poglavlju se zatim daje pregled temeljnih postavki i modela Web 2.0 pristupa i društvenog softvera, kao i povezanih koncepata organizacije znanja u takvom korisničko-orijentiranom okruženju. U nastavku poglavlja, donosi se pregled primjernih servisa koji uspješno implementiraju korisničke oznake kao metodu organizacije sadržaja. Za svaki prikazan servis daje se detaljan prikaz načina korištenja korisničkih oznaka u organizaciji sadržaja te osnovnih elemenata sučelja. Treće poglavlje naslovljeno je Korisničko označivanje kao metoda organizacije znanja u Web 2.0 okruženju. Na početku poglavlja donosi se rasprava o terminologiji i prijevodima temeljnih engleskih termina na hrvatski jezik. U nastavku poglavlja dan je iscrpan pregled istraživanja korisničkog označivanja u znanstvenoj literaturi. Sam pregled literature poduzet je kombinacijom webometrijskih i scientometrijskih metoda gdje se identificiraju ključni autori i radovi na temelju kocitatne analize radova iz relevantnih baza podataka. Osim primjene kvantitativnih metoda, kojima se identificiraju najutjecajniji autori i radovi, poduzeta je i sadržajna analiza relevantnih radova gdje su identificirane temeljne teme i pristupi u području istraživanja što je omogućilo jasno postavljanje istraživačkog fokusa u provedenom istraživanju. Nakon pregleda istraživanja, donose se ostale relevantne teorijske postavke područja korisničkog označivanja, od strukture, formalnih modela i procesa korisničkog označivanja do kategorija i modela distribucije korisničkih oznaka. Četvrto poglavlje naslovljeno Ključni aspekti primjene korisničkog označivanja u baštinskom okruženju bavi se smještanjem korisničkog označivanja unutar baštinskog okruženja sa svim posebnostima koje ono donosi. Donosi osnovne postavke korištenja kolektivne inteligencije, nabave iz mnoštva i igara sa svrhom kao temeljnih pristupa u baštinskom okruženju, dajući okvire u kojim se društveni softver i korisničko označivanje primjenjuju unutar baštinskog okruženja. Poglavlje donosi i izabrane primjere projekata pokrenutih u baštinskom okruženju koji koriste osnovne ideje nabave iz mnoštva i kolektivne inteligencije u opisu baštinske građe, bila ona arhivska, knjižnična ili muzejska. Fokus pregleda stavljen je na uspješne i pionirske projekte koji koriste suradničko označivanje kako bi omogućili korisnicima sudjelovanje u opisima baštinske građe. Peto poglavlje naslovljeno je Istraživanje korisničkog označivanja u opisu baštinske građe i donosi opis plana, materijala, metoda, hipoteza i rezultata provedenog istraživanja. Na početku poglavlja jasno je definiran plan istraživanje te je postavljeno pet hipoteza rada. Nakon toga prikazani su materijali korišteni u istraživanju, kao i opis samog programskog rješenja korištenog za prikupljanje podataka. U nastavku rada su, tabličnim i grafičkim ilustracijama, prikazani rezultati demografske analize sudionika te statističke, lingvističke i značenjske analize prikupljenog korpusa korisničkih oznaka na hrvatskom jeziku. Statistička analiza pokazala je kako ne postoje značajne razlike u broju dodjeljivanja i broju dodanih korisničkih oznaka na razini zbirke te kako veći broj dodjeljivanja ne pokazuje korelaciju s veličinom korisničkog rječnika kojim se neka zbirka opisuje. Lingvistička analiza pokazala je kako se tipična korisnička oznaka sastoji od jedne do dvije riječi te je opća imenica u nominativu jednine, čime pokazuje obilježja klasičnih predmetnica. Značenjska analiza pokazala je kako je najveći broj oznaka dodan na generičkoj razini, tj. na razini koja ne zahtijeva specifično znanje već samo znanje prepoznavanja. U nastavku poglavlja pod naslovom Ispitivanje razlika u pristupu korisničkom označivanju tradicionalnih vrsta građe u baštinskom okruženju prikazani su rezultati usporedbe predmetnica dodanih od strane stručnjaka s korisničkim oznakama koje su prikupljene putem aplikacije na razini pojedinog predmeta. U ovom dijelu rada prikazana je, implementirana i testirana na prikupljenom uzorku nova metoda usporedbe koja se temelji na mjerama konzistentnosti označivanja između dva predmetna stručnjaka, ali je u radu primijenjena na usporedbu setova predmetnica i korisničkih oznaka. Usporedba je provedena implementacijom algoritamskog rješenja usporedbe u programskom jeziku Python čime je omogućena automatska obrada podataka. Završni dio poglavlja pod naslovom Ocjena korisnosti prikupljenih korisničkih oznaka od strane predmetnog stručnjaka prikazuje rezultate završnog dijela istraživanja, u kojem su korisničke oznake nakon algoritamske obrade vraćene predmetnom stručnjaku na ocjenu korisnosti u predmetnom opisu građe. Ovaj dio disertacije postavlja model koji omogućava relevantnim korisničkim oznakama za svaki predmet da se nalaze u setu oznaka koje stručnjak ocjenjuje kroz definiranje mjere i praga relevantnosti korisničke oznake za pojedini predmet. Model donosi novi pristup kojim se prag frekvencije uključenih korisničkih oznaka postavlja na vrijednost gornje granične vrijednosti u distribuciji korisničkih oznaka za pojedini predmet. Rješenje je algoritamski implementirano u programskom jeziku Python. Pokazalo se kako je predmetni stručnjak koji je ocjenjivao korisnost prikupljenih korisničkih oznaka dodanih arhivskoj, muzejskoj i fotografskoj građi (na skali od 1 do 5) vraćene oznake ocijenio prosječnom ocjenom 3,57 što pokazuje visoku primjenjivost samog modela za navedene vrste građe. Posljednje poglavlje Zaključak donosi sumirane zaključke svakog poglavlja uz raspravu o ključnim rezultatima. Zaključni dio rada sumira i glavne rezultate rada, od definiranja dosad nepostojećeg prilagođenog modela statističke, lingvističke i značenjske analize korpusa korisničkih oznaka na hrvatskom jeziku te time omogućenog uvida u njihove statističke, lingvističke i značenjske aspekte, preko definiranja nove metode usporedbe setova predmetnica i korisničkih oznaka te definiranja mjere i praga relevantnosti korisničke oznake za pojedini izvor, pa do završnog dijela poglavlja u kojem se predlaže model analize i primjene korisničkog označivanja u predmetnom opisu baštinske građe.
Description: