Story Understanding through Semantic Analysis and Automatic Alignment of Text and Video zur Erlangung des akademischen Grades eines Doktors der Ingenieurwissenschaften der KIT-Fakultät für Informatik des Karlsruher Instituts für Technologie (KIT) genehmigte Dissertation von Makarand Murari Tapaswi aus Goa, Indien Tag der mündlichen Prüfung: 16. Juni 2016 Hauptreferent: Prof. Dr.-Ing. Rainer Stiefelhagen KarlsruherInstitutfürTechnologie Korreferent: Dr. Cordelia Schmid INRIA,Grenoble KIT–UniversitätdesLandesBaden-WürttembergundnationalesForschungszentruminderHelmholtz-Gemeinschaft www.kit.edu Abstract Stories are the pinnacle of human creativity, and yet a ubiquitous phenomenon. An importantelementofhumancommunicationconsistsoftellingandlistening,reading, andnowadayswatchingstoriesenactedonfilm. Amongdifferentmeansofstory-telling, videos(TVseriesandmovies)areaverypowerfulmediumastheyhavethepotentialto engagemultiplehumansenses. ArtificialIntelligence(AI)hasmadelargestridesinthelastdecade,throughwhichseveral advanceshavebeenachievedinbothlanguageandvision. However,thesefieldshavebeen primarilystudiedseparately,andonlyinthelastfewyearsdoweseejointanalysisrising toprominence. Wearguethattheabilitytomodel,analyze,understand,andcreatenew storiesisasteppingstoneforstrongAI–amachinethatcouldperformanyintellectual task that a human can. Towards this grander goal of story understanding, we seek to builduponawaveofresearchinthejointstudyofvisionandlanguage. TVseriesandmoviesareperfectcandidatesforsuchastudy,astheyarevideosproduced forthespecificpurposeofstory-telling. Inthisthesis,wedefinemachineunderstanding ofstoriesastheabilitytoperformhuman-liketasksuponthosestories,suchasindexing andsearchingforstoryeventsinlargecollections,summarizingthestories,andanswering questionsaboutthem. Weaddresstheproblemofstoryunderstandingfromthreevantage points. First,weintroducetheuseofnovelsourcesofnaturallanguagetextthatallow tobetterlearnthecontentofthevideos. Next,weproposeavisualizationtechniqueto obtain a big picture overview of the story conveyed in a video. Finally, we provide a means to examine machine understanding of stories by using question-answering as a surrogatetask. iv Subtitlesandtranscriptshavebeenanexcellentsourceoflow-levelinformationforvideo understanding,however,theyareinadequatetounderstandthestoryplot. Weintroduce theuseoftwodiverseformsofnaturallanguagetextthatfocusonthestory: plotsynopses andbooks. Plotsynopsesareconcisedescriptionsofthestoryintheepisodesormovies andareobtainedeasilythroughcrowdsourcing. Onthecontrary,books,fromwhich the videos are adapted, are large texts that describe the events (characters, scenes, and interactions)inrichdetail. Unliketranscripts,thepotentialofthesetextsourcesneedsto beunlockedbyfirstaligningthetextunitswiththevideo. Weproposesimilaritymetrics to bridge the gap between the text and video modalities. Using them, we align plot synopsissentenceswithindividualvideoshots,andbookchapterswithvideoscenes. To thisend,wedevelopseveralalignmentmodelsthatattempttomaximizejointsimilarity while respecting story progression constraints. We test these approaches on two sets ofvideosforbothplotsandbooksandobtainpromisingalignmentperformance. The alignmentgivesrisetoapplicationssuchasdescribingvideoclipsusingplotsentencesor bookparagraphs,story-basedvideoretrievalusingplotsasintermediaries,andeventhe abilitytopredictwhetherascenefromthevideoadaptationwaspresentintheoriginal book. Oursecondapproachtowardsimprovingstoryunderstandingisthroughvisualization. We automatically generate StoryGraphs – charts that depict character interactions in an episode and augment them with information about key events. The graph layout istreatedasanoptimizationproblemthattradesofffunctionalitywithaesthetics. We conductauserexperimentandshowthatsuchgraphscanaidhumansinspeedingupthe searchforstory-eventsinavideo. Our third important contribution is in the field of assessing machine understanding. Here,wecreatealargescalequestion-answering(QA)datasetbasedonmoviestories. Thedatasetnotonlycoverssimplevisualaspectssuchas“Who”,“What”,and“Where”, butalsorequireslong-rangetemporalreasoningtoanswer“Why”and“How”questions. AuniqueaspectofourQAdatasetisthatansweringcanbeperformedusingtextsources (e.g.plots,subtitles)orvideoclips. Thedatasetismadeavailableaspartofabenchmark challenge. Further,weanalyzedatasetbias,explorethequalityofourmultiple-choice questions,andproposeseveraltechniquesforanswering. Inadditiontotheprimarycontributions,wealsoworkonanalyzingandcreatingbetter meta-dataforthevideos. Inparticular,weproposenewtechniquesforsceneboundary detection,andimprovepersonidentificationinTVseries. Kurzzusammenfassung Geschichten sind ein Höhepunkt menschlicher Kreativität und noch immer ein uni- versellesPhänomen. EinwesentlicherTeildermenschlichenKommunikationbesteht aus dem Lesen, Erzählen und Anhören von Geschichten. Heutzutage geschieht dies meist in einer modernen Form, als Fernsehserien und -filme. Von den verschiedenen MöglichkeiteneineGeschichtezuerzählen,sinddieseeinsehrleistungsfähigesMedium, dasiemehreremenschlicheSinnebeteiligenkönnen. ImletztenJahrzehnthatdieEntwicklungderKünstlichenIntelligenz(KI)großeFortschritte gemacht,wodurchmehrereEntwicklungeninderSprach-undBildverarbeitungmöglich wurden. DennochwurdendieseFachgebietebisherhauptsächlichgetrenntvoneinander untersucht, erst in den letzten Jahren änderte sich dies. Wir betrachten die Fähigkeit, Geschichten zu analysieren, zu verstehen und neu zu erschaffen, als einen wichtigen SchrittaufdemWegzurEntwicklungstarkerKI–dasheißteinerMaschine,diejeglichein- tellektuelleAufgabewieeinMenschlösenkann. FürdieAnalyseunddasVerständnisvon GeschichtenwollenwirdabeiaufdengroßenFortschrittenimBereichderautomatischen Sprach-undBildanalyseaufbauen. IndieserDissertationdefinierenwirMaschinellesVerständnisvonGeschichtenalsdie FähigkeiteinerMaschine,wieeinMenschmitGeschichtenumzugehen,dasheißtzum Beispiel,dieFähigkeitbestimmteHandlungenundEreignissezuerkennenundwieder findenzukönnen,sowiedieFähigkeitGeschichtenzusammenzufassenundFragenüber dieGeschichtebeantwortenzukönnen. AlsAnwendungsbeispielebetrachtenwirdabei FernsehserienundSpielfilme. WirbetrachtendasProblemdesVerständnissesvonGeschichtenausdreiverschiedenen Blickwinkeln. Zuerst führen wir die Nutzung neuartiger Bezugsquellen von Video- vi BeschreibungeninnatürlicherSpracheein,welcheunseinbesseresautomatischesVer- ständnisdesVideoinhaltesermöglichen. DannschlagenwireineVisualisierungstechnik vor, um einen Überblick der Geschichte zu bekommen. Abschließend stellen wir die automatischeBeantwortungvonFragenzuFilmenalseineMethodevor,mitderenHilfe dasmaschinelleVerständnisvonGeschichtenbewertetwerdenkann. Texte,wiez.B.UntertitelundFilmskripte,sindeineexzellenteQuelleanergänzenden Informationen um Videos zu verstehen. Wir stellen zwei unterschiedliche natürlich- sprachigeTextquellenvor: Synopsen(plotsynopses)undBücher. Synopsensindkurze ZusammenfassungenvonSerienoderFilmen,siesindfürvieleFilmeundSerienerhältlich. ImGegensatzdazusindBücherlangeTexte,dieEreignisse(Charaktere,SzenenundInter- aktionen)mitzahlreichenDetailsbeschreiben. UmihrPotenzialzurinhaltlichenAnalyse derVideoszuentfalten,müssendieeinzelnenTextabschnittedieserTextquellendabei zunächstdenSzeneneinesVideoszugeordnetwerden. WirerstellenÄhnlichkeitsfunktio- nen,umdieseLückezwischenTextundVideoschließen. HiermitordnenwirdieSätze derSynopsendeneinzelnenVideo-Einstellungen(shots),sowieeinzelneBuchkapitelden Videoszenen,automatischzu. WirentwickelnhierzuverschiedeneAlignment-Modelle, welcheunsereÄhnlichkeitsfunktionenmaximieren,dabeiaberdenAblaufderGeschichte nicht außer Acht lassen. Wir testen diese Ansätze an zwei Datenquellen, sowohl für SynopsenalsauchfürBücherundkönnendabeivielversprechendeErgebnissefürdas Alignmenterzielen. DiesermöglichteineFüllevonAnwendungen,wiedieBeschreibung vonVideo-ClipsdurchTeilederSynopseoderdemBuch,dasAuffindenvonEreignissen inVideosunterNutzungderSynopsealsZwischenschrittundauchdieFähigkeitfestzu stellen,obeineSzeneeinerVideoadaptierungimBuchvorhandenist. Unser zweiter Ansatz zur Verbesserung des Verständnisses einer Geschichte erfolgt durch Visualisierung. Wir generieren so gennante StoryGraphs, Diagramme, welche dieInteraktionenzwischenPersonenineinerFolgedarstellenundergänzendiesemit InformationenzuwichtigenEreignissen. DieAnordnungderGrafikwirddabeialsein Optimierungsproblembetrachtet,welchesfunktionaleundästhetischeAspekteabwägt. WirführeneineBenutzerstudiedurchundzeigen,dassderartigeGrafikendemMenschen dabeihelfen,gesuchteEreignisseimVideoschnellerzufinden. Unser dritter wichtiger Beitrag ist im Bereich der Bewertung von Maschinellem Ver- ständnis von Geschichten. Zu diesem Zweck erstellen wir eine große Frage-Antwort (Question-Answering)Datenbank,basierendaufFilmgeschichten. DieDatenbankbein- haltetnichtnureinfachevisuelle“Wer”,“Was”und“Wo”Aspekte,sondernsieerfordert vii auchSchlussfolgerungenüberlangeZeiträumehinweg, umFragenüberdas“Warum” und “Wie” beantworten zu können. Ein besonderer Aspekt unserer Frage-Antwort Datenbankist,dassdieBeantwortungderFragenmitHilfevonTextquellen(z.B.Syn- opsen,Untertiteln)oderVideoClipserfolgenkann. DieDatenbankwirdalsTeileines Benchmarksveröffentlicht. WiranalysierenweiterhinverschiedeneMerkmaleundAs- pektederDatenbank(datasetbias),untersuchendieQualitätunsererMultiple-Choice FragenundschlagendiverseTechnikenzurautomatischenBeantwortungderFragenvor. ZusätzlichzuunserenHauptbeiträgenarbeitenwirauchanderAnalyseundErstellung von besseren Meta-Daten für Videos. Insbesondere schlagen wir neue Techniken zur DetektionvonSzenenschnittenvorundverbesserndieIdentifikationvonPersonenin Fernsehserien. Acknowledgments Thejourneyofadoctoralthesisisastoryinitselfwithmanyplayers. Itakethisoppor- tunitytothankthemallformotivatingandguidingmeandmakingitagreatexperience. Firstly, IthankRainerStiefelhagenforprovidinganopenworkenvironmentwhereI was free to choose a topic and aim towards higher semantics. I also thank him for the numerouslearningopportunitiespresentedtomeincreatinglectures,writingproposals, presentingdemos,andparticipatinginotherlab-wideactivities. IalsothankCordelia Schmidforkindlyagreeingtobeareviewerandimprovingthequalityofthisthesis. StartingfrommyMaster’sthesis,Ifoundagreatguide,brainstormingpartner,andfriend inMartinBäuml. Thankyousomuchforallyourhelpandpatienceandnurturingme throughoutthistime. Ithas,inpart,cometofruitionthroughthisthesis. IthankallothermembersatourlabincludingHazım,Boris,Ziad,Tobias,Manel,Daniel, Monica,Lukas,Arne,andManuelformakingthesefiveyearsofmylifeamemorable time. SpecialthankstoCorinnaforheruntiringhelpwiththeadministrativethingsand makingmefeelwelcome. IwashappytoworkwithÇa˘grı,Esam,andMonicaontheir thesesandthankthemforteachingmehowtoteach! I thank Rainer again for encouraging me to go on internships. I was lucky to spend three summer months of 2013 at the Visual Geometry Group in Oxford, and thank AndrewZissermanforprovidingthisopportunityandtakingalotoftimetoadviseme. IthankOmkarforthefunwehadthinkingaboutourfaceclusteringproblemtogether (inMarathi!),andMinh,Eric,Yusuf,andReljaforanicestay. Inthefallof2015,Ihad another opportunity to visit Sanja Fidler and Raquel Urtasun’s lab at the University of Toronto. This fantastic collaboration resulted in the MovieQA data set. I thank x SanjaandRaquelforthechanceandguidingmethrougheverystepoftheway,Yukun Zhuforhisamazinghelp,andAntonioTorralbaforguidancewiththedataset. Ifound knowledgeablelabmatesinElmanandShikharandthankthemforsolvingnumerous Theanodoubts,andLluis,Kaustav,Namdar,Ivan,andAlexformakingitamemorable stay. Finally,IamexcitedtovisitUofTasapost-doctoralfellow. Mostimportantly,Ithankmyparentsandfamilyforinculcatinggreatvalues,believing inme,andfosteringanopenenvironment. Passionanddedicationforone’swork,while remaining calm and composed are key aspects I learned from them. Their support throughthislongjourneywasinvaluable. IthankDivyaforherloveandsupportand lookforwardtothefuture! (cid:153)Fk(cid:2) (cid:9)ZAp(cid:13)Zm-t(cid:0)
Description: