ebook img

Story Understanding through Semantic Analysis and Automatic Alignment of Text and Video PDF

181 Pages·2016·6.62 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Story Understanding through Semantic Analysis and Automatic Alignment of Text and Video

Story Understanding through Semantic Analysis and Automatic Alignment of Text and Video zur Erlangung des akademischen Grades eines Doktors der Ingenieurwissenschaften der KIT-Fakultät für Informatik des Karlsruher Instituts für Technologie (KIT) genehmigte Dissertation von Makarand Murari Tapaswi aus Goa, Indien Tag der mündlichen Prüfung: 16. Juni 2016 Hauptreferent: Prof. Dr.-Ing. Rainer Stiefelhagen KarlsruherInstitutfürTechnologie Korreferent: Dr. Cordelia Schmid INRIA,Grenoble KIT–UniversitätdesLandesBaden-WürttembergundnationalesForschungszentruminderHelmholtz-Gemeinschaft www.kit.edu Abstract Stories are the pinnacle of human creativity, and yet a ubiquitous phenomenon. An importantelementofhumancommunicationconsistsoftellingandlistening,reading, andnowadayswatchingstoriesenactedonfilm. Amongdifferentmeansofstory-telling, videos(TVseriesandmovies)areaverypowerfulmediumastheyhavethepotentialto engagemultiplehumansenses. ArtificialIntelligence(AI)hasmadelargestridesinthelastdecade,throughwhichseveral advanceshavebeenachievedinbothlanguageandvision. However,thesefieldshavebeen primarilystudiedseparately,andonlyinthelastfewyearsdoweseejointanalysisrising toprominence. Wearguethattheabilitytomodel,analyze,understand,andcreatenew storiesisasteppingstoneforstrongAI–amachinethatcouldperformanyintellectual task that a human can. Towards this grander goal of story understanding, we seek to builduponawaveofresearchinthejointstudyofvisionandlanguage. TVseriesandmoviesareperfectcandidatesforsuchastudy,astheyarevideosproduced forthespecificpurposeofstory-telling. Inthisthesis,wedefinemachineunderstanding ofstoriesastheabilitytoperformhuman-liketasksuponthosestories,suchasindexing andsearchingforstoryeventsinlargecollections,summarizingthestories,andanswering questionsaboutthem. Weaddresstheproblemofstoryunderstandingfromthreevantage points. First,weintroducetheuseofnovelsourcesofnaturallanguagetextthatallow tobetterlearnthecontentofthevideos. Next,weproposeavisualizationtechniqueto obtain a big picture overview of the story conveyed in a video. Finally, we provide a means to examine machine understanding of stories by using question-answering as a surrogatetask. iv Subtitlesandtranscriptshavebeenanexcellentsourceoflow-levelinformationforvideo understanding,however,theyareinadequatetounderstandthestoryplot. Weintroduce theuseoftwodiverseformsofnaturallanguagetextthatfocusonthestory: plotsynopses andbooks. Plotsynopsesareconcisedescriptionsofthestoryintheepisodesormovies andareobtainedeasilythroughcrowdsourcing. Onthecontrary,books,fromwhich the videos are adapted, are large texts that describe the events (characters, scenes, and interactions)inrichdetail. Unliketranscripts,thepotentialofthesetextsourcesneedsto beunlockedbyfirstaligningthetextunitswiththevideo. Weproposesimilaritymetrics to bridge the gap between the text and video modalities. Using them, we align plot synopsissentenceswithindividualvideoshots,andbookchapterswithvideoscenes. To thisend,wedevelopseveralalignmentmodelsthatattempttomaximizejointsimilarity while respecting story progression constraints. We test these approaches on two sets ofvideosforbothplotsandbooksandobtainpromisingalignmentperformance. The alignmentgivesrisetoapplicationssuchasdescribingvideoclipsusingplotsentencesor bookparagraphs,story-basedvideoretrievalusingplotsasintermediaries,andeventhe abilitytopredictwhetherascenefromthevideoadaptationwaspresentintheoriginal book. Oursecondapproachtowardsimprovingstoryunderstandingisthroughvisualization. We automatically generate StoryGraphs – charts that depict character interactions in an episode and augment them with information about key events. The graph layout istreatedasanoptimizationproblemthattradesofffunctionalitywithaesthetics. We conductauserexperimentandshowthatsuchgraphscanaidhumansinspeedingupthe searchforstory-eventsinavideo. Our third important contribution is in the field of assessing machine understanding. Here,wecreatealargescalequestion-answering(QA)datasetbasedonmoviestories. Thedatasetnotonlycoverssimplevisualaspectssuchas“Who”,“What”,and“Where”, butalsorequireslong-rangetemporalreasoningtoanswer“Why”and“How”questions. AuniqueaspectofourQAdatasetisthatansweringcanbeperformedusingtextsources (e.g.plots,subtitles)orvideoclips. Thedatasetismadeavailableaspartofabenchmark challenge. Further,weanalyzedatasetbias,explorethequalityofourmultiple-choice questions,andproposeseveraltechniquesforanswering. Inadditiontotheprimarycontributions,wealsoworkonanalyzingandcreatingbetter meta-dataforthevideos. Inparticular,weproposenewtechniquesforsceneboundary detection,andimprovepersonidentificationinTVseries. Kurzzusammenfassung Geschichten sind ein Höhepunkt menschlicher Kreativität und noch immer ein uni- versellesPhänomen. EinwesentlicherTeildermenschlichenKommunikationbesteht aus dem Lesen, Erzählen und Anhören von Geschichten. Heutzutage geschieht dies meist in einer modernen Form, als Fernsehserien und -filme. Von den verschiedenen MöglichkeiteneineGeschichtezuerzählen,sinddieseeinsehrleistungsfähigesMedium, dasiemehreremenschlicheSinnebeteiligenkönnen. ImletztenJahrzehnthatdieEntwicklungderKünstlichenIntelligenz(KI)großeFortschritte gemacht,wodurchmehrereEntwicklungeninderSprach-undBildverarbeitungmöglich wurden. DennochwurdendieseFachgebietebisherhauptsächlichgetrenntvoneinander untersucht, erst in den letzten Jahren änderte sich dies. Wir betrachten die Fähigkeit, Geschichten zu analysieren, zu verstehen und neu zu erschaffen, als einen wichtigen SchrittaufdemWegzurEntwicklungstarkerKI–dasheißteinerMaschine,diejeglichein- tellektuelleAufgabewieeinMenschlösenkann. FürdieAnalyseunddasVerständnisvon GeschichtenwollenwirdabeiaufdengroßenFortschrittenimBereichderautomatischen Sprach-undBildanalyseaufbauen. IndieserDissertationdefinierenwirMaschinellesVerständnisvonGeschichtenalsdie FähigkeiteinerMaschine,wieeinMenschmitGeschichtenumzugehen,dasheißtzum Beispiel,dieFähigkeitbestimmteHandlungenundEreignissezuerkennenundwieder findenzukönnen,sowiedieFähigkeitGeschichtenzusammenzufassenundFragenüber dieGeschichtebeantwortenzukönnen. AlsAnwendungsbeispielebetrachtenwirdabei FernsehserienundSpielfilme. WirbetrachtendasProblemdesVerständnissesvonGeschichtenausdreiverschiedenen Blickwinkeln. Zuerst führen wir die Nutzung neuartiger Bezugsquellen von Video- vi BeschreibungeninnatürlicherSpracheein,welcheunseinbesseresautomatischesVer- ständnisdesVideoinhaltesermöglichen. DannschlagenwireineVisualisierungstechnik vor, um einen Überblick der Geschichte zu bekommen. Abschließend stellen wir die automatischeBeantwortungvonFragenzuFilmenalseineMethodevor,mitderenHilfe dasmaschinelleVerständnisvonGeschichtenbewertetwerdenkann. Texte,wiez.B.UntertitelundFilmskripte,sindeineexzellenteQuelleanergänzenden Informationen um Videos zu verstehen. Wir stellen zwei unterschiedliche natürlich- sprachigeTextquellenvor: Synopsen(plotsynopses)undBücher. Synopsensindkurze ZusammenfassungenvonSerienoderFilmen,siesindfürvieleFilmeundSerienerhältlich. ImGegensatzdazusindBücherlangeTexte,dieEreignisse(Charaktere,SzenenundInter- aktionen)mitzahlreichenDetailsbeschreiben. UmihrPotenzialzurinhaltlichenAnalyse derVideoszuentfalten,müssendieeinzelnenTextabschnittedieserTextquellendabei zunächstdenSzeneneinesVideoszugeordnetwerden. WirerstellenÄhnlichkeitsfunktio- nen,umdieseLückezwischenTextundVideoschließen. HiermitordnenwirdieSätze derSynopsendeneinzelnenVideo-Einstellungen(shots),sowieeinzelneBuchkapitelden Videoszenen,automatischzu. WirentwickelnhierzuverschiedeneAlignment-Modelle, welcheunsereÄhnlichkeitsfunktionenmaximieren,dabeiaberdenAblaufderGeschichte nicht außer Acht lassen. Wir testen diese Ansätze an zwei Datenquellen, sowohl für SynopsenalsauchfürBücherundkönnendabeivielversprechendeErgebnissefürdas Alignmenterzielen. DiesermöglichteineFüllevonAnwendungen,wiedieBeschreibung vonVideo-ClipsdurchTeilederSynopseoderdemBuch,dasAuffindenvonEreignissen inVideosunterNutzungderSynopsealsZwischenschrittundauchdieFähigkeitfestzu stellen,obeineSzeneeinerVideoadaptierungimBuchvorhandenist. Unser zweiter Ansatz zur Verbesserung des Verständnisses einer Geschichte erfolgt durch Visualisierung. Wir generieren so gennante StoryGraphs, Diagramme, welche dieInteraktionenzwischenPersonenineinerFolgedarstellenundergänzendiesemit InformationenzuwichtigenEreignissen. DieAnordnungderGrafikwirddabeialsein Optimierungsproblembetrachtet,welchesfunktionaleundästhetischeAspekteabwägt. WirführeneineBenutzerstudiedurchundzeigen,dassderartigeGrafikendemMenschen dabeihelfen,gesuchteEreignisseimVideoschnellerzufinden. Unser dritter wichtiger Beitrag ist im Bereich der Bewertung von Maschinellem Ver- ständnis von Geschichten. Zu diesem Zweck erstellen wir eine große Frage-Antwort (Question-Answering)Datenbank,basierendaufFilmgeschichten. DieDatenbankbein- haltetnichtnureinfachevisuelle“Wer”,“Was”und“Wo”Aspekte,sondernsieerfordert vii auchSchlussfolgerungenüberlangeZeiträumehinweg, umFragenüberdas“Warum” und “Wie” beantworten zu können. Ein besonderer Aspekt unserer Frage-Antwort Datenbankist,dassdieBeantwortungderFragenmitHilfevonTextquellen(z.B.Syn- opsen,Untertiteln)oderVideoClipserfolgenkann. DieDatenbankwirdalsTeileines Benchmarksveröffentlicht. WiranalysierenweiterhinverschiedeneMerkmaleundAs- pektederDatenbank(datasetbias),untersuchendieQualitätunsererMultiple-Choice FragenundschlagendiverseTechnikenzurautomatischenBeantwortungderFragenvor. ZusätzlichzuunserenHauptbeiträgenarbeitenwirauchanderAnalyseundErstellung von besseren Meta-Daten für Videos. Insbesondere schlagen wir neue Techniken zur DetektionvonSzenenschnittenvorundverbesserndieIdentifikationvonPersonenin Fernsehserien. Acknowledgments Thejourneyofadoctoralthesisisastoryinitselfwithmanyplayers. Itakethisoppor- tunitytothankthemallformotivatingandguidingmeandmakingitagreatexperience. Firstly, IthankRainerStiefelhagenforprovidinganopenworkenvironmentwhereI was free to choose a topic and aim towards higher semantics. I also thank him for the numerouslearningopportunitiespresentedtomeincreatinglectures,writingproposals, presentingdemos,andparticipatinginotherlab-wideactivities. IalsothankCordelia Schmidforkindlyagreeingtobeareviewerandimprovingthequalityofthisthesis. StartingfrommyMaster’sthesis,Ifoundagreatguide,brainstormingpartner,andfriend inMartinBäuml. Thankyousomuchforallyourhelpandpatienceandnurturingme throughoutthistime. Ithas,inpart,cometofruitionthroughthisthesis. IthankallothermembersatourlabincludingHazım,Boris,Ziad,Tobias,Manel,Daniel, Monica,Lukas,Arne,andManuelformakingthesefiveyearsofmylifeamemorable time. SpecialthankstoCorinnaforheruntiringhelpwiththeadministrativethingsand makingmefeelwelcome. IwashappytoworkwithÇa˘grı,Esam,andMonicaontheir thesesandthankthemforteachingmehowtoteach! I thank Rainer again for encouraging me to go on internships. I was lucky to spend three summer months of 2013 at the Visual Geometry Group in Oxford, and thank AndrewZissermanforprovidingthisopportunityandtakingalotoftimetoadviseme. IthankOmkarforthefunwehadthinkingaboutourfaceclusteringproblemtogether (inMarathi!),andMinh,Eric,Yusuf,andReljaforanicestay. Inthefallof2015,Ihad another opportunity to visit Sanja Fidler and Raquel Urtasun’s lab at the University of Toronto. This fantastic collaboration resulted in the MovieQA data set. I thank x SanjaandRaquelforthechanceandguidingmethrougheverystepoftheway,Yukun Zhuforhisamazinghelp,andAntonioTorralbaforguidancewiththedataset. Ifound knowledgeablelabmatesinElmanandShikharandthankthemforsolvingnumerous Theanodoubts,andLluis,Kaustav,Namdar,Ivan,andAlexformakingitamemorable stay. Finally,IamexcitedtovisitUofTasapost-doctoralfellow. Mostimportantly,Ithankmyparentsandfamilyforinculcatinggreatvalues,believing inme,andfosteringanopenenvironment. Passionanddedicationforone’swork,while remaining calm and composed are key aspects I learned from them. Their support throughthislongjourneywasinvaluable. IthankDivyaforherloveandsupportand lookforwardtothefuture! (cid:153)Fk(cid:2) (cid:9)ZAp(cid:13)Zm-t(cid:0)

Description:
Stories are the pinnacle of human creativity, and yet a ubiquitous phenomenon. An important element of human Our second approach towards improving story understanding is through visualization. We automatically generate .. 5 StoryGraphs: Visualizing Character Interactions. 95. 5.1 StoryGraphs
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.