Grundlagen der KI 13. Maschinelles Lernen Lernen durch Beobachtung Michael Beetz 458 VieleAbbildungensinddemBuch“ArtificialIntelligence:AModernApproach”entnommen.VieleFolienberuhenaufVorlagenvonProf.BernhardNebel,Dr. JanaKo¨hler(Universita¨tFreiburg)undProf.GerhardLakemeyer,(RWTHAachen). 459 Inhalt Der lernende Agent (cid:0) Induktives Lernen (cid:0) Lernen von Entscheidungsba¨umen (cid:0) Lernen von allgemeinen Hypothesen (cid:0) Warum Lernen funktioniert (cid:0) 460 Lernen Was ist lernen? (cid:0) Ein Agent lernt, wenn er durch Erfahrung seine Fa¨higkeit, eine Aufgabe zu lo¨sen, verbessern kann. z.B. Spielprogramme (cid:1) Warum lernen? (cid:0) Engineering, Philosophie, Kognitionswissenschaften (cid:1) Data Mining (Entdeckung von neuem Wissen durch Datenanalyse) (cid:1) Keine Intelligenz ohne Lernen! 461 Der lernende Agent Bisher dienten die Wahrnehmungen des Agenten (Perzepte) nur dem Handeln. Jetzt sollen sie auch der Verbesserung zuku¨nftiger Verhaltensweisen dienen. Performance standard Critic Sensors feedback E n changes v i r Learning Performance o element element n knowledge m learning e goals n t Problem generator Agent Effectors 462 Bausteine des lernenden Agenten Performance-Element: Verarbeitet Wahrnehmungen und wa¨hlt Aktionen aus entspricht dem bisherigen Agentenmodell. (cid:0) Learning-Element: Durchfu¨hren von Verbesserungen braucht Wissen u¨ber (cid:0) sich selbst und wie sich der Agent in der Umwelt bewa¨hrt. Critic: Bewertung des Agentenverhaltens auf der Grundlage eines gegebenen externen Verhaltensmaßstabs Ru¨ckkopplung (feedback). (cid:0) Problem-Generator: Vorschlagen von explorativen Aktionen, die den Agenten zu neuen Erfahrungen fu¨hren. 463 Das Learning-Element Seine Funktionsweise wird von 4 entscheidenden Fragen beeinflusst: 1. Welche Teile des Performance-Elements sollen verbessert werden? 2. Welche Repra¨sentation wird gewa¨hlt? 3. Welche Form von Ru¨ckkopplung ist verfu¨gbar? 4. Welche Ausgangsinformation steht fu¨r den Lernprozess zur Verfu¨gung? 464 Arten der Ru¨ckkopplung beim Lernen Eingabe: Information aus der Umwelt Ausgabe: die Effekte der Aktionen des Agenten Effekte, die der Agent durch sein Handeln erzielen will (Ideal) und Effekte, die dann tatsa¨chlich in der Welt eintreten(Tatsache), unterscheiden sich oft erheblich. Ziel des Lernens: Anna¨hern der tatsa¨chlichen an die ideale Funktion. Supervised Learning: Eingabe/Ausgabe sind verfu¨gbar. Ein Lehrer teilt dem System den Effekt auf die Umwelt und damit die korrekte Aktion mit. Reinforcement Learning: Je nach Erfolg seiner Aktionen wird der Agent bestraft oder belohnt. Unsupervised Learning: Der Agent kann nur Modelle fu¨r das Auftreten von Regelma¨ßigkeiten seiner Beobachtungen lernen, aber nicht was er richtigerweise tun mu¨sste. 465 Induktives Lernen Jede Art von Lernen kann als das Lernen der Repra¨sentation einer Funktion verstanden werden. Ein Beispiel ist ein Paar . (cid:1) (cid:1) (cid:0) (cid:2) (cid:3) (cid:0) (cid:4) (cid:4) Induktive Inferenz: Fu¨r eine Menge von Beispielen fu¨r ist eine Funktion (cid:5) (cid:3) (Hypothese) gesucht, die approximiert. (cid:3) o o o o o o o o o o o o o o o o o o o o (a) (b) (c) (d) Bias: Tendenz, eine bestimmte Hypothese zu bevorzugen 466 Entscheidungsba¨ume Eingabe: Beschreibung einer Situation durch eine Menge von Eigenschaften (entspricht Grundliteralen in FOL). Ausgabe: Ja/Nein Entscheidung bezu¨glich eines Zielpra¨dikats. Entscheidungsba¨ume stellen boolesche Funktionen dar. Ein interner Knoten im Entscheidungsbaum repra¨sentiert einen Test einer Eigenschaft. Zweige sind mit den mo¨glichen Werten des Tests markiert. Jeder Blattknoten tra¨gt den booleschen Wert, der bei Erreichen des Blattes zuru¨ckgegeben werden soll. Ziel des Lernprozesses: Definition eines Zielpra¨dikates in Form eines Entscheidungsbaums 467
Description: