Table Of ContentStory Understanding through
Semantic Analysis and Automatic
Alignment of Text and Video
zur Erlangung des akademischen Grades eines
Doktors der Ingenieurwissenschaften
der KIT-Fakultät für Informatik
des Karlsruher Instituts für Technologie (KIT)
genehmigte
Dissertation
von
Makarand Murari Tapaswi
aus Goa, Indien
Tag der mündlichen Prüfung: 16. Juni 2016
Hauptreferent: Prof. Dr.-Ing. Rainer Stiefelhagen
KarlsruherInstitutfürTechnologie
Korreferent: Dr. Cordelia Schmid
INRIA,Grenoble
KIT–UniversitätdesLandesBaden-WürttembergundnationalesForschungszentruminderHelmholtz-Gemeinschaft www.kit.edu
Abstract
Stories are the pinnacle of human creativity, and yet a ubiquitous phenomenon. An
importantelementofhumancommunicationconsistsoftellingandlistening,reading,
andnowadayswatchingstoriesenactedonfilm. Amongdifferentmeansofstory-telling,
videos(TVseriesandmovies)areaverypowerfulmediumastheyhavethepotentialto
engagemultiplehumansenses.
ArtificialIntelligence(AI)hasmadelargestridesinthelastdecade,throughwhichseveral
advanceshavebeenachievedinbothlanguageandvision. However,thesefieldshavebeen
primarilystudiedseparately,andonlyinthelastfewyearsdoweseejointanalysisrising
toprominence. Wearguethattheabilitytomodel,analyze,understand,andcreatenew
storiesisasteppingstoneforstrongAI–amachinethatcouldperformanyintellectual
task that a human can. Towards this grander goal of story understanding, we seek to
builduponawaveofresearchinthejointstudyofvisionandlanguage.
TVseriesandmoviesareperfectcandidatesforsuchastudy,astheyarevideosproduced
forthespecificpurposeofstory-telling. Inthisthesis,wedefinemachineunderstanding
ofstoriesastheabilitytoperformhuman-liketasksuponthosestories,suchasindexing
andsearchingforstoryeventsinlargecollections,summarizingthestories,andanswering
questionsaboutthem. Weaddresstheproblemofstoryunderstandingfromthreevantage
points. First,weintroducetheuseofnovelsourcesofnaturallanguagetextthatallow
tobetterlearnthecontentofthevideos. Next,weproposeavisualizationtechniqueto
obtain a big picture overview of the story conveyed in a video. Finally, we provide a
means to examine machine understanding of stories by using question-answering as a
surrogatetask.
iv
Subtitlesandtranscriptshavebeenanexcellentsourceoflow-levelinformationforvideo
understanding,however,theyareinadequatetounderstandthestoryplot. Weintroduce
theuseoftwodiverseformsofnaturallanguagetextthatfocusonthestory: plotsynopses
andbooks. Plotsynopsesareconcisedescriptionsofthestoryintheepisodesormovies
andareobtainedeasilythroughcrowdsourcing. Onthecontrary,books,fromwhich
the videos are adapted, are large texts that describe the events (characters, scenes, and
interactions)inrichdetail. Unliketranscripts,thepotentialofthesetextsourcesneedsto
beunlockedbyfirstaligningthetextunitswiththevideo. Weproposesimilaritymetrics
to bridge the gap between the text and video modalities. Using them, we align plot
synopsissentenceswithindividualvideoshots,andbookchapterswithvideoscenes. To
thisend,wedevelopseveralalignmentmodelsthatattempttomaximizejointsimilarity
while respecting story progression constraints. We test these approaches on two sets
ofvideosforbothplotsandbooksandobtainpromisingalignmentperformance. The
alignmentgivesrisetoapplicationssuchasdescribingvideoclipsusingplotsentencesor
bookparagraphs,story-basedvideoretrievalusingplotsasintermediaries,andeventhe
abilitytopredictwhetherascenefromthevideoadaptationwaspresentintheoriginal
book.
Oursecondapproachtowardsimprovingstoryunderstandingisthroughvisualization.
We automatically generate StoryGraphs – charts that depict character interactions in
an episode and augment them with information about key events. The graph layout
istreatedasanoptimizationproblemthattradesofffunctionalitywithaesthetics. We
conductauserexperimentandshowthatsuchgraphscanaidhumansinspeedingupthe
searchforstory-eventsinavideo.
Our third important contribution is in the field of assessing machine understanding.
Here,wecreatealargescalequestion-answering(QA)datasetbasedonmoviestories.
Thedatasetnotonlycoverssimplevisualaspectssuchas“Who”,“What”,and“Where”,
butalsorequireslong-rangetemporalreasoningtoanswer“Why”and“How”questions.
AuniqueaspectofourQAdatasetisthatansweringcanbeperformedusingtextsources
(e.g.plots,subtitles)orvideoclips. Thedatasetismadeavailableaspartofabenchmark
challenge. Further,weanalyzedatasetbias,explorethequalityofourmultiple-choice
questions,andproposeseveraltechniquesforanswering.
Inadditiontotheprimarycontributions,wealsoworkonanalyzingandcreatingbetter
meta-dataforthevideos. Inparticular,weproposenewtechniquesforsceneboundary
detection,andimprovepersonidentificationinTVseries.
Kurzzusammenfassung
Geschichten sind ein Höhepunkt menschlicher Kreativität und noch immer ein uni-
versellesPhänomen. EinwesentlicherTeildermenschlichenKommunikationbesteht
aus dem Lesen, Erzählen und Anhören von Geschichten. Heutzutage geschieht dies
meist in einer modernen Form, als Fernsehserien und -filme. Von den verschiedenen
MöglichkeiteneineGeschichtezuerzählen,sinddieseeinsehrleistungsfähigesMedium,
dasiemehreremenschlicheSinnebeteiligenkönnen.
ImletztenJahrzehnthatdieEntwicklungderKünstlichenIntelligenz(KI)großeFortschritte
gemacht,wodurchmehrereEntwicklungeninderSprach-undBildverarbeitungmöglich
wurden. DennochwurdendieseFachgebietebisherhauptsächlichgetrenntvoneinander
untersucht, erst in den letzten Jahren änderte sich dies. Wir betrachten die Fähigkeit,
Geschichten zu analysieren, zu verstehen und neu zu erschaffen, als einen wichtigen
SchrittaufdemWegzurEntwicklungstarkerKI–dasheißteinerMaschine,diejeglichein-
tellektuelleAufgabewieeinMenschlösenkann. FürdieAnalyseunddasVerständnisvon
GeschichtenwollenwirdabeiaufdengroßenFortschrittenimBereichderautomatischen
Sprach-undBildanalyseaufbauen.
IndieserDissertationdefinierenwirMaschinellesVerständnisvonGeschichtenalsdie
FähigkeiteinerMaschine,wieeinMenschmitGeschichtenumzugehen,dasheißtzum
Beispiel,dieFähigkeitbestimmteHandlungenundEreignissezuerkennenundwieder
findenzukönnen,sowiedieFähigkeitGeschichtenzusammenzufassenundFragenüber
dieGeschichtebeantwortenzukönnen. AlsAnwendungsbeispielebetrachtenwirdabei
FernsehserienundSpielfilme.
WirbetrachtendasProblemdesVerständnissesvonGeschichtenausdreiverschiedenen
Blickwinkeln. Zuerst führen wir die Nutzung neuartiger Bezugsquellen von Video-
vi
BeschreibungeninnatürlicherSpracheein,welcheunseinbesseresautomatischesVer-
ständnisdesVideoinhaltesermöglichen. DannschlagenwireineVisualisierungstechnik
vor, um einen Überblick der Geschichte zu bekommen. Abschließend stellen wir die
automatischeBeantwortungvonFragenzuFilmenalseineMethodevor,mitderenHilfe
dasmaschinelleVerständnisvonGeschichtenbewertetwerdenkann.
Texte,wiez.B.UntertitelundFilmskripte,sindeineexzellenteQuelleanergänzenden
Informationen um Videos zu verstehen. Wir stellen zwei unterschiedliche natürlich-
sprachigeTextquellenvor: Synopsen(plotsynopses)undBücher. Synopsensindkurze
ZusammenfassungenvonSerienoderFilmen,siesindfürvieleFilmeundSerienerhältlich.
ImGegensatzdazusindBücherlangeTexte,dieEreignisse(Charaktere,SzenenundInter-
aktionen)mitzahlreichenDetailsbeschreiben. UmihrPotenzialzurinhaltlichenAnalyse
derVideoszuentfalten,müssendieeinzelnenTextabschnittedieserTextquellendabei
zunächstdenSzeneneinesVideoszugeordnetwerden. WirerstellenÄhnlichkeitsfunktio-
nen,umdieseLückezwischenTextundVideoschließen. HiermitordnenwirdieSätze
derSynopsendeneinzelnenVideo-Einstellungen(shots),sowieeinzelneBuchkapitelden
Videoszenen,automatischzu. WirentwickelnhierzuverschiedeneAlignment-Modelle,
welcheunsereÄhnlichkeitsfunktionenmaximieren,dabeiaberdenAblaufderGeschichte
nicht außer Acht lassen. Wir testen diese Ansätze an zwei Datenquellen, sowohl für
SynopsenalsauchfürBücherundkönnendabeivielversprechendeErgebnissefürdas
Alignmenterzielen. DiesermöglichteineFüllevonAnwendungen,wiedieBeschreibung
vonVideo-ClipsdurchTeilederSynopseoderdemBuch,dasAuffindenvonEreignissen
inVideosunterNutzungderSynopsealsZwischenschrittundauchdieFähigkeitfestzu
stellen,obeineSzeneeinerVideoadaptierungimBuchvorhandenist.
Unser zweiter Ansatz zur Verbesserung des Verständnisses einer Geschichte erfolgt
durch Visualisierung. Wir generieren so gennante StoryGraphs, Diagramme, welche
dieInteraktionenzwischenPersonenineinerFolgedarstellenundergänzendiesemit
InformationenzuwichtigenEreignissen. DieAnordnungderGrafikwirddabeialsein
Optimierungsproblembetrachtet,welchesfunktionaleundästhetischeAspekteabwägt.
WirführeneineBenutzerstudiedurchundzeigen,dassderartigeGrafikendemMenschen
dabeihelfen,gesuchteEreignisseimVideoschnellerzufinden.
Unser dritter wichtiger Beitrag ist im Bereich der Bewertung von Maschinellem Ver-
ständnis von Geschichten. Zu diesem Zweck erstellen wir eine große Frage-Antwort
(Question-Answering)Datenbank,basierendaufFilmgeschichten. DieDatenbankbein-
haltetnichtnureinfachevisuelle“Wer”,“Was”und“Wo”Aspekte,sondernsieerfordert
vii
auchSchlussfolgerungenüberlangeZeiträumehinweg, umFragenüberdas“Warum”
und “Wie” beantworten zu können. Ein besonderer Aspekt unserer Frage-Antwort
Datenbankist,dassdieBeantwortungderFragenmitHilfevonTextquellen(z.B.Syn-
opsen,Untertiteln)oderVideoClipserfolgenkann. DieDatenbankwirdalsTeileines
Benchmarksveröffentlicht. WiranalysierenweiterhinverschiedeneMerkmaleundAs-
pektederDatenbank(datasetbias),untersuchendieQualitätunsererMultiple-Choice
FragenundschlagendiverseTechnikenzurautomatischenBeantwortungderFragenvor.
ZusätzlichzuunserenHauptbeiträgenarbeitenwirauchanderAnalyseundErstellung
von besseren Meta-Daten für Videos. Insbesondere schlagen wir neue Techniken zur
DetektionvonSzenenschnittenvorundverbesserndieIdentifikationvonPersonenin
Fernsehserien.
Acknowledgments
Thejourneyofadoctoralthesisisastoryinitselfwithmanyplayers. Itakethisoppor-
tunitytothankthemallformotivatingandguidingmeandmakingitagreatexperience.
Firstly, IthankRainerStiefelhagenforprovidinganopenworkenvironmentwhereI
was free to choose a topic and aim towards higher semantics. I also thank him for the
numerouslearningopportunitiespresentedtomeincreatinglectures,writingproposals,
presentingdemos,andparticipatinginotherlab-wideactivities. IalsothankCordelia
Schmidforkindlyagreeingtobeareviewerandimprovingthequalityofthisthesis.
StartingfrommyMaster’sthesis,Ifoundagreatguide,brainstormingpartner,andfriend
inMartinBäuml. Thankyousomuchforallyourhelpandpatienceandnurturingme
throughoutthistime. Ithas,inpart,cometofruitionthroughthisthesis.
IthankallothermembersatourlabincludingHazım,Boris,Ziad,Tobias,Manel,Daniel,
Monica,Lukas,Arne,andManuelformakingthesefiveyearsofmylifeamemorable
time. SpecialthankstoCorinnaforheruntiringhelpwiththeadministrativethingsand
makingmefeelwelcome. IwashappytoworkwithÇa˘grı,Esam,andMonicaontheir
thesesandthankthemforteachingmehowtoteach!
I thank Rainer again for encouraging me to go on internships. I was lucky to spend
three summer months of 2013 at the Visual Geometry Group in Oxford, and thank
AndrewZissermanforprovidingthisopportunityandtakingalotoftimetoadviseme.
IthankOmkarforthefunwehadthinkingaboutourfaceclusteringproblemtogether
(inMarathi!),andMinh,Eric,Yusuf,andReljaforanicestay. Inthefallof2015,Ihad
another opportunity to visit Sanja Fidler and Raquel Urtasun’s lab at the University
of Toronto. This fantastic collaboration resulted in the MovieQA data set. I thank
x
SanjaandRaquelforthechanceandguidingmethrougheverystepoftheway,Yukun
Zhuforhisamazinghelp,andAntonioTorralbaforguidancewiththedataset. Ifound
knowledgeablelabmatesinElmanandShikharandthankthemforsolvingnumerous
Theanodoubts,andLluis,Kaustav,Namdar,Ivan,andAlexformakingitamemorable
stay. Finally,IamexcitedtovisitUofTasapost-doctoralfellow.
Mostimportantly,Ithankmyparentsandfamilyforinculcatinggreatvalues,believing
inme,andfosteringanopenenvironment. Passionanddedicationforone’swork,while
remaining calm and composed are key aspects I learned from them. Their support
throughthislongjourneywasinvaluable. IthankDivyaforherloveandsupportand
lookforwardtothefuture!
(cid:153)Fk(cid:2) (cid:9)ZAp(cid:13)Zm-t(cid:0)
Description:Stories are the pinnacle of human creativity, and yet a ubiquitous phenomenon. An important element of human Our second approach towards improving story understanding is through visualization. We automatically generate .. 5 StoryGraphs: Visualizing Character Interactions. 95. 5.1 StoryGraphs