ebook img

Informationserschließung und Automatisches Indexieren: Ein Lehr- und Arbeitsbuch PDF

439 Pages·2012·9.17 MB·German
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Informationserschließung und Automatisches Indexieren: Ein Lehr- und Arbeitsbuch

· · Winfried Gödert Klaus Lepsky Matthias Nagelschmidt Informationserschließung und Automatisches Indexieren Ein Lehr- und Arbeitsbuch 123 WinfriedGödert KlausLepsky FachhochschuleKöln FachhochschuleKöln Institutfür Institutfür Informationswissenschaft Informationswissenschaft Claudiusstr.1 Claudiusstr.1 50678Köln 50678Köln Deutschland Deutschland [email protected] [email protected] MatthiasNagelschmidt FachhochschuleKöln Institutfür Informationswissenschaft Claudiusstr.1 50678Köln Deutschland [email protected] ISSN1439-3107 ISBN978-3-642-23512-2 e-ISBN978-3-642-23513-9 DOI10.1007/978-3-642-23513-9 SpringerHeidelbergDordrechtLondonNewYork DieDeutscheNationalbibliothek verzeichnet diesePublikation inderDeutschenNationalbibliografie; detailliertebibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar. (cid:2)c Springer-VerlagBerlinHeidelberg2012 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung,derMikroverfilmungoderderVervielfältigungaufanderenWegenundderSpeicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine VervielfältigungdiesesWerkesodervonTeilendiesesWerkesistauchimEinzelfallnurindenGrenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. ZuwiderhandlungenunterliegendenStrafbestimmungendesUrheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigtauchohnebesondereKennzeichnungnichtzuderAnnahme,dasssolcheNamenimSinneder Warenzeichen-undMarkenschutz-Gesetzgebungalsfreizubetrachtenwärenunddahervonjedermann benutztwerdendürften. Einbandentwurf:KünkelLopkaGmbH,Heidelberg GedrucktaufsäurefreiemPapier SpringeristTeilderFachverlagsgruppeSpringerScience+BusinessMedia(www.springer.com) Vorwort DieThemendiesesBuchesInformationserschließungundAutomatischesIndexieren fassen Methoden und Verfahren zusammen, die dafür sorgen, dass abgespeicherte Dokumente oder Medien zuverlässig gefunden werden können. Wenn ein System SuchennachallenDokumentenzueinembestimmtenThemaerlaubt,darfmansi- chersein,dassimHintergrundeinederSpielartenvonInformationserschließungam Werkist.Wennesmöglichist,beieinerSuchemiteinembestimmtenSuchbegriff auch Dokumente zu finden, die Varianten des Suchbegriffs sind (z.B. der Plural), dann lässt sich schließen, dass eine Variante einer automatischen Indexierung im Hintergrundgewirkthat.ZweimalHintergrund,beideMaleimverborgenenarbei- tendeSysteme,aufdielediglichIndizienhinweisen,genaudasistdieHerausforde- rungfürdieThemendiesesBuches:InformationserschließungundAutomatisches Indexierenfunktionierenoftdannambesten,wennmanvonihnennichtsbemerkt, außerdassmanerfolgreichSuchenabwickelnkann. Dieser Charakter des Verborgenen wäre vielleicht nicht weiter schlimm, gilt er doch für viele Dinge, mit denen wir selbstverständlich umzugehen gewohnt sind, ohne dass uns jemals interessieren würde, welche teils hochkomplexen Prozesse dahinterstecken.Wermöchteschongenauwissen,wieeinHandyfunktioniert?In- teressanterweisewürdeaberniemandaufdieIdeekommenzubehaupten,nurweil man mit dem Handy telefonieren kann, wüsste man auch, wie es arbeitet, könne vielleichtsogarselbsteinsbauen. GenaudasistaberdieErfahrung,diewirinunseremFachzunehmendmachen. Die Vielzahl von elektronischen Suchangeboten, die heute ohne jedes Vorwissen genutzt werden können, erwecken den Eindruck, als sei das Herstellen von Syste- men für das Suchen und Finden lediglich ein technisches Problem. Dort, wo man selbstetwasunternehmenkann,umDokumentebesserfindenzukönnen,istdasoft fastkinderleicht–nichtumsonstwerdenderartigeUmgebungenunterdemBegriff socialtaggingzusammengefasst,indemselbenSinne,wiedasMitwirkenvonJeder- mannbeiWikipediamöglichunderwünschtist.AndrewKeenhatdasüberspitztden v vi Vorwort „cultoftheamateur"1genanntundbeschreibtdamitaufpolemischeWeisedienicht zu übersehende Tatsache, dass es in Umgebungen, in denen Jeder (auch anonym) mitwirken kann, schwer fällt, zwischen Kundigen und Unkundigen zu unterschei- den. Dies führt – neben anderen interessanten Aspekten – auch dazu, dass bislang hochgradigfachspezifischeThemenzunehmendbanalisiertwerden. Dassesabermöglicherweisenurdeshalbgelingenkann,wertvolleInformationen spielendleichtzufinden,weilzuvordieseInformationenvonAnderenmitaufwen- digerArbeit–ebeneinerErschließungsarbeit–aufgewertetwordensind,daswird imUmfeldallgegenwärtigerSuchmaschinenleichtvergessen.Wieauchimmerder Slogan„AufdenSchulternvonGiganten“fürGoogleScholar2 gemeintseinmag, Fakt ist, dass Google sich für seinen Suchdienst nach wissenschaftlich relevanter Literatur der Erschließungsleistung diverser Wissenschaftsverlage und Fachdaten- banken bedient. Basis für den Sucherfolg ist also die zuvor irgendwann – und für denNutzervonGoogleScholarimVerborgenen–geleisteteErschließungsarbeit. Über diese verborgene Erschließungsarbeit und deren methodische Grundlagen einFachbuchzuschreiben,isteinVorhaben,dassichwegendieserBeobachtungen dem ständigen Verdacht ausgesetzt sehen muss, eigentlich nicht mehr zeitgemäß zusein.DieFragedes„Istdaswirklichalles(noch)nötig?“stehtbeiunseremBe- mühen–unddasistdurchzahlreicheÄußerungenStudierenderhinreichendbelegt – ständig im Raum. Daran mag erschwerend Schuld tragen, dass die Materie kei- nesfallseinfachist.DieBeschäftigungmitErschließungsverfahrenerfordertmetho- discheBetrachtungenüberSprache,Vorstellungswelten,BegriffssystemeundOrd- nungssysteme.DieBehandlungderThematikAutomatischeIndexierungkannnicht glücken ohne das Verständnis für grundlegende linguistische und statistische Phä- nomene. Die Gemengelage von auf den ersten Blick nur schwer zu erkennender prakti- scherRelevanzunddergleichzeitigerforderlichenTiefeeinermethodischenDurch- dringung der zugehörigen Themen, hat bei den Autoren zu einer Abkehr von rein theoretischenLehrveranstaltungengeführt.StattdessenistüberdieJahreeinLehr- konzeptentstanden,beidemTheorieundPraxisengmiteinanderverzahntsind,das Selbst-MachenvordemdarüberLesenundRedenkommt.DahinterstehtdieÜber- zeugung,dassetwaserstdannwirklichgelerntist,wennmanesmindestenseinmal, besseraberöfter,selbstgemachthat. Dieser grundlegenden Überzeugung folgt auch dieses Buch. Deshalb heißt es „Lehr- und Arbeitsbuch“. Das kann natürlich nicht folgenlos für seine Gestaltung wie für seine Benutzung bleiben. Der Konflikt zwischen dem typischen lehrbuch- haftenErklärenunddemvonunsunbedingtgewolltenEinbeziehenpraktischerTä- tigkeitenführteinderEntstehungszeitimmerwiederzuDiskussionenüberdiean- gemesseneGewichtungderjeweiligenAnteilewiederenkonkreterAusgestaltung. DieshatzurFolge–umnurzweiBeispielezunennen–,dassausgesprochenlehr- buchhafte Elemente wie die Schilderung der Geschichte einer Methode oder das Aufzählen diverser Verfahren als konkrete Anwendungsfälle im Buch nicht vor- 1Keen,A.:Thecultoftheamateur:howtoday’sinternetiskillingourculture.NewYork:Doub- leday/Currency,2007. 2http://scholar.google.de/. Vorwort vii kommen.Besservielleicht,fastnichtvorkommen,dennabundzuerschienesuns auchzweckmäßig,unsvondiesemPrinzipeinwenigzulösen.Leser,dieAntworten auf Fragen wie „Was halten die Autoren von der Dewey Decimal Classification?“ erwarten, werden aber enttäuscht sein. Wir behandeln nichts, was wir nicht auch fürunsereAufgabenstellungenundunsereLernzielebenötigen.Hierwarenoftdie KonzessionenandenKompromiss,Lehr-undArbeitsbuchseinzuwollen,amdeut- lichsten. EsscheintnachderFertigstellungdesBuchesnunfestzustehen,dasseinsolcher Kompromiss–zumindestausSichtderAutoren–möglichist.Obdieserauchgelun- genist,wirdjederLeser,vielleichtbesserAnwenderdesBuchesselbstentscheiden müssen.DamiteszueinersolchenAnwendungüberhauptkommt,haltenwiresfür nötig,demeigentlichenInhalteineArtGebrauchsanweisungvoranzustellen. Das Buch gliedert sich in zwei große thematische Teile mit jeweils drei Kapi- teln,einervorangestelltenEinführungindasGebietundeinemnachgestelltenAn- hang.GrundsätzlichwirdeinelineareBearbeitungunterstellt,d.h.wirgehendavon aus,dassdasganzeBuchvonvornebishintendurchgearbeitetwird.Dasbedeutet vor allem, dass es in späteren Kapiteln passieren kann, dass auf Wissen rekurriert wird,dessenErwerbinfrüherenKapitelnerwartetwird.EinVerstoßgegendiesege- wünschteLese-undArbeitsabfolgeist–spezielleKenntnissevorausgesetzt–sicher möglich,eventuelldabeientstehendeFragezeichensolltenabernichtunsangelastet werden. DawirgroßenWertdarauflegen,dassdaszuErlernendeaufderBasiseigener praktischerTätigkeitnachverfolgtwird,lässtessichnichtvermeiden,dassmanals Leserauchetwastunmuss,daseindeutigüberdasLeseneinesBucheshinausgeht. DieIntegrationundangemesseneBehandlungdieserpraktischenAufgabenstellun- genwarfürunswährenddesSchreibenseinständigerDrahtseilakt.Einerseitswoll- ten wir das selbstständige Tun durch den Text animieren und unterstützen, ande- rerseits wollten wir nicht verhindern, dass auch reine Leser Profit aus der Lektüre ziehenkönnen.Betontseiabernocheinmal,dassdasBucheigentlichnichtfürdie reineLektüregeschriebenist. DieindiesemSinnearbeitsintensivstenInhaltedesBuchesbefindensichinden Kapiteln 2, 3 und 5 – das ist auch schon an deren Länge eindeutig zu erkennen. DiesedreiKapitelbasierenaufumfangreichenpraktischenAufgabenstellungen,die sich mit den Themen Informationserschließung und Automatisches Indexieren be- fassen.ImKapitel2wirdeineDatenbank-undRetrievallösungfürBilderentwickelt undeinErschließungsverfahreneingeführtundtheoretischbegründet,dasgeeignet ist, Bildinhalte umfassend zu erschließen. Wer als Fachkundiger Beziehungen zu konventionellenLehrbuchinhaltendesFachessucht,wirddieseimBereichVerba- leInhaltserschließungundThesaurifinden.ImKapitel3wirdeinebibliografische Datenbankverwendet,umdiePrinzipienderStrukturierungbibliografischerDaten, der Übernahme von Fremddaten und der systematischen Ordnung zu behandeln. Kapitel5schließlichwendetfürdieauchschoninKapitel3genutztenDateneine linguistischundstatistischbasierteAutomatischeIndexierungan. ErgänztwerdendieseKapiteldurcheinKapitelüberdieBehandlungbibliogra- fischer Daten in relationalen Datenbanksystemen (Kapitel 4), das ohne konkrete viii Vorwort praktische Anwendung konzipiert ist, jedoch deutliche Bezüge zu Kapitel 3 her- stellt. In Kapitel 6 (Retrievalexperimente) wird untersucht, welche Konsequenzen die erschließerischen Maßnahmen für eine erfolgreiche Informationssuche haben und–grundsätzlicher–wiemandenErfolgvonverwendetenVerfahrenüberhaupt feststellen kann. Kapitel 7 unternimmt schließlich den Versuch, eine theoretische ZusammenführungallerimBuchbehandeltenVerfahrenundMethodenzuleisten. WerkomprimierteTheoriesucht,wirdsiehierfinden. DieAbsicht,sichimBuchmitpraktischenAufgabenstellungenzubeschäftigen, erfordertdenEinsatzvonSoftware,derenallgemeineKenntniswirnichtvorausset- zen können. Zentrales Werkzeug für all unsere Arbeiten ist das Datenbanksystem Midos. Wir verwenden es seit langem in der Lehre, weil es einen ausgesprochen transparenten Umgang mit Datenbanken erlaubt und eine reichhaltige, für unsere Belangewichtige,Funktionalitätbesitzt.FürdieeigeneArbeitmitMidoskanneine Demo-Versionheruntergeladenwerden3,dienurgeringeNutzungseinschränkungen besitzt, die aber für unsere Aufgaben alle nicht relevant sind. Im Zusammenhang mit den praktischen Anteilen werden wir die Funktionen von Midos innerhalb der Kapitelerklären.DamitdiesnichtanjederStelleerneutgeschehenmuss,sindalle wichtigen Fragen rund um Midos in einer Einführung in die Arbeit mit dem Pro- grammimAnhangdesBucheszusammengefasst. AllefürdieArbeitenimBuchbenötigtenToolsundDatenstellenwiraufderSei- te www.indexierung-retrieval.de zur Verfügung.4 Im Unterschied zu den von uns vorbereiteten Daten – Bilddateien, Datenbankdateien, Thesauri –, sind die einge- setzten Programme Midos und Lingo dynamische Systeme, die sich weiterentwi- ckelnkönnen.Dasbedeutet,dassBezugnahmenaufProgrammfunktionenundAb- bildungen von Dialogen durchaus einer Momentaufnahme entsprechen. Wir sind zwar zuversichtlich, dass der Kern der jeweils von uns benötigten Funktionalität auchnochineinoderzweiJahrenvondenSystemenzuverlässiggeleistetwerden wird,eskannallerdingssein,dasseszuVeränderungenimAusseheneinzelnerPro- grammteilekommenmag.Wirwerdenversuchen,solcheÄnderungenebenfallsauf www.indexierung-retrieval.dezudokumentieren. Bei den Literaturhinweisen haben wir uns auf das nötigste beschränkt. Für alle im Buch behandelten Themen empfehlen wir für den Wunsch nach weiterführen- derLiteraturdieSucheindervonunsaufwww.indexierung-retrieval.deangebote- nen Literaturdatenbank Informationserschließung. Die Datenbank enhält mehr als 35.000bibliografischeNachweisezurFachliteratur.DieimBuchverwendeteFach- terminologiehabenwirineinemThesaurusInformationserschließungversammelt, derimübrigenauchbeidenAufgabenstellungenineinigenKapitelnnochpraktisch eingesetzt werden wird. Um sich über die Bedeutung einzelner Begriffe und de- renBeziehungenzuinformieren,lohnteinBlickindieWeb-VersiondesThesaurus (ebenfallsaufwww.indexierung-retrieval.de). 3http://www.progris.de. 4ÜbereineArchivdatei(gln-daten.zip)lassensichalleimBuchverwendetenDateienaufeinmal herunterladen–derempfohleneWeg.Zusätzlich(inersterLiniefürlangsameNetzverbindungen) gibteskleinereArchivemit denDateienfürjeweilseinzelneAufgabenstellungen(vgl.die Be- schreibungenaufderLeitseite). Vorwort ix DiepraktischenAufgabenstellungenindenKapiteln2,3und5sindjeweilsdort indenTexteingestreut,woihreBearbeitungfürdeninhaltlichenWeitergangbenö- tigtwird.Diesführtdazu,dasseskeinenkontinuierlichenAblaufderAufgabegibt, derdasBedürfnisbedienenkönnte,dasgesamteProgrammeinesKapitelsnochein- malimZusammenhangabzuarbeiten.WirhabendaherandasEndederKapitelin einemPraktikumalleimKapiteldurchgeführtenpraktischenTätigkeitennochein- mal zusammengefasst. Sollte man im Kapitel selbst irgendwann den praktischen Faden verloren haben, kann ein Blick in das zugehörige Praktikum hier vielleicht helfen. AmEndejedesKapitelsgibtesÜbungsaufgaben,diederVertiefungdesGelern- tendienen.DiesesindteilweisetheoretischerBauartunddienendannalsAnregung, sich über ein bestimmtes Thema noch einmal eigene Gedanken zu machen. Die praktischenAufgabenerklärensichhoffentlichvonselbst.FürdieÜbungsaufgaben gibteskeineMusterlösungenimBuchoderaufwww.indexierung-retrieval.de.Die Lösung der Aufgaben ist immer unter Zuhilfenahme des in den Kapiteln behan- delten Stoffes zu erreichen. Sollte dies nicht gelingen, lässt sich ein nochmaliges BearbeitenderentsprechendenPassagewohlleidernichtvermeiden. Wirgebenzu,dasswirzudemeinengewissengrundsätzlichenVorbehaltgegen- überMusterlösungenhaben.FürvielederangesprochenenProblemeimBuchgibt es nämlich eindeutig mehr als eine mögliche Lösung. Erschließung, Indexierung und Retrieval sind nach unserer Auffassung keine Themen, bei denen es für jede Fragestellung ein richtig oder falsch als Antwort gibt. Wir werden auch im Buch immerwiederdaraufhinweisen,dassdieAntwortaufbestimmteProblemstellungen oftineinemAbwägenzahlreicherVor-undNachteilemöglicherLösungenbestehen muss. InteressanterweisehatsichimLehrbetriebgezeigt,dassdieseFreiheitinderGe- staltung gar nicht mal beliebt ist. Studierende bevorzugen oft die eindeutige Ent- scheidbarkeiteinerFrage,weilsieeineleichtereOrientierungimohnehinumfang- reichenStoffermöglicht.Damitkönnenwir,besserdieInhalteunseresBuches,lei- dernichtdienen.DasZielmussvergleichsweisebescheidenbleiben:Indertheoreti- schenundpraktischenAuseinandersetzungmitdemStoffsollendieKenntnissever- mitteltwerden,dienötigsind,umfüreinegegebeneDokumentkollektionhinsicht- lichDatenorganisationundErschließungrichtigzuentscheidenundzuhandeln.Das Ergebniswirdmöglicherweisedannnichtdas–unterwelchenBewertungskriterien auchimmer–bestmöglichesein,abermitziemlicherSicherheiteintaugliches. Die Idee, ein Buch über Inhaltserschließung zu schreiben, bewegt zumindest zwei der Verfasser bereits seit gut 15 Jahren. Über eine Gliederung des Stoffes ist dieses Vorhaben nie hinausgekommen, immer gab es erstens anderes zu tun, zweitens – muss man wohl ehrlicherweise zugeben – war die Gliederung nicht so reizvoll,dasssichderDrang,sieineinBuchumzusetzen,unbedingtBahnbrechen musste.DurchdieallmählicheRealisierungdesLehrkonzeptseinerengenVerzah- nungvonTheorieundPraxisentstanddieNotwendigkeit,unterstützendeTextefür dieinLaborpraktikazubewältigendenAufgabenstellungenzuverfassen.DieseTex- tesindimLaufederJahreundinsteterAuseinandersetzungmitdenStudierenden in den Laborpraktika von anfänglich einigen wenigen Blättern zu echten Skripten x Vorwort angewachsen.DieseSkripteließendieIdeezumBuchneuauflebenundzumersten Malauchrealistischerscheinen. Aus dieser Vorgeschichte leiten sich auch gleich der Charakter des Buches – über den schon genug gesagt wurde – und seine primäre Zielgruppe ab. Dies sind zunächstundvorallemunsereStudierenden,denendasBuchfürihreArbeitinden Laborpraktika das theoretische und praktische Rüstzeug geben soll. Gleichzeitig hoffen wir natürlich, dass die von uns behandelten Probleme auch für andere von Interesse sein können. Dabei denken wir nicht nur an Bibliotheken oder verwand- te Einrichtungen, in denen mit der Materie Vertraute arbeiten. Wir wissen durch entsprechendeAnfragen,dassdasFindenvonInformationinzwischeninvielenBe- reichen zum Problem geworden ist – ob trotz oder wegen des Einsatzes moderner Informationstechnologie, lässt sich dabei nicht immer klar unterscheiden. Wir ha- benunsbemüht,möglichstvoraussetzungsloszustarten,umauchFachfremdenden Einstieg in den Stoff nicht zu verleiden. Wir würden uns freuen, wenn das Buch dabeihelfenkönnte,Problemezulösen,andiewirbeimSchreibennochgarnicht gedachthaben. DenStudierendenamInstitutfürInformationswissenschaftderFachhochschule Köln haben wir am meisten zu danken. Es ist schade, dass ausgerechnet diejeni- gen von ihnen, die am meisten zur Verbesserung der Aufgabenstellungen und der Skriptebeigetragenhaben,vomBuchimStudiumnichtsmehrhabenwerden,denn sie sind längst im Beruf. Uns ist bewusst, dass wir vielen Studierenden mit unse- remLehrkonzepteinigeszugemutethaben,aberauchderenKritikund(ja,teilweise genervten)AnregungenwarenwichtigfürdieEntstehungdesBuches. BeiderVorbereitungdesBucheszeigtesich,dasses–nachunsererAuffassung– eineMengeDingegab,diewirunsfürMidosanderswünschten.AnnetteKlosund PaulKunkelvonProgrishabensichdieseWünschenichtnurangehört,sondernsie auch nach und nach in die neue Programmversion umgesetzt. Auch unserer Bitte, den Funktionsumfang der kostenlosen Demoversionen der beiden Programme Mi- dosundMidos-ThesaurusandieBedürfnissedesBuchesundderdortverwendeten Datenanzupassen(inWirklichkeitdeutlichzuerweitern),wurdeentsprochen.Dem InteresseundderUnterstützungdurchProgrisgiltunserbesondererDank. Köln, WinfriedGödert Juni2011 KlausLepsky MatthiasNagelschmidt

Description:
Das Buch vermittelt Kenntnisse über die Modellierung dokumentbezogener Metadaten durch praktische Aufgabenstellungen, begleitende theoretische Erläuterungen sowie ergänzende Übungen. Als Beispiele dienen Bilddokumente und bibliografische Daten. Es wird vermittelt, wie entsprechende Datenbanken a
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.