Amazon EMR Entwicklerhandbuch Amazon EMR Entwicklerhandbuch Amazon EMR: Entwicklerhandbuch Copyright © 2018 Amazon Web Services, Inc. and/or its affiliates. All rights reserved. Amazon's trademarks and trade dress may not be used in connection with any product or service that is not Amazon's, in any manner that is likely to cause confusion among customers, or in any manner that disparages or discredits Amazon. All other trademarks not owned by Amazon are the property of their respective owners, who may or may not be affiliated with, connected to, or sponsored by Amazon. Amazon EMR Entwicklerhandbuch Table of Contents Was ist Amazon EMR?....................................................................................................................... 1 Ressourcen............................................................................................................................... 2 Welche Möglichkeiten bietet Amazon EMR?................................................................................... 3 Hadoop-Programmierung in Amazon EMR............................................................................. 3 Datenanalyse und -verarbeitung in Amazon EMR.................................................................... 4 Datenspeicherung in Amazon EMR....................................................................................... 4 Verschieben von Daten mit Amazon EMR.............................................................................. 4 Amazon EMR-Funktionen............................................................................................................ 4 Anpassbare Cluster............................................................................................................. 5 Sie zahlen nur für das, was Sie nutzen .................................................................................. 5 Benutzerfreundlich.............................................................................................................. 5 Verwenden von Amazon S3 oder HDFS................................................................................ 5 Parallele Cluster................................................................................................................. 5 Support für die Hadoop-Anwendung...................................................................................... 5 Geld sparen mit Spot-Instances............................................................................................ 6 AWS-Integration................................................................................................................. 6 Instance-Optionen............................................................................................................... 6 MapR-Support.................................................................................................................... 6 Business Intelligence-Tools.................................................................................................. 6 Benutzersteuerung.............................................................................................................. 7 Verwaltungs-Tools.............................................................................................................. 7 Sicherheit.......................................................................................................................... 7 Wie funktioniert Amazon EMR?.................................................................................................... 7 Hadoop............................................................................................................................. 7 Knoten.............................................................................................................................. 9 Schritte............................................................................................................................. 9 Cluster............................................................................................................................ 11 Welche Tools stehen für Amazon EMR zur Verfügung?.................................................................. 12 Weitere Informationen zu Hadoop und den AWS Services mit Amazon EMR:..................................... 14 Erste Schritte................................................................................................................................... 15 Kosten des Tutorials................................................................................................................. 15 Schritt 1: Erstellen eines AWS-Kontos.......................................................................................... 15 Schritt 2: Erstellen Sie einen Amazon S3-Bucket für Ihre Cluster-Protokolle und Ausgabedaten.............. 16 Schritt 3: Starten eines Amazon EMR-Clusters.............................................................................. 17 Schritt 4: Führen Sie das Hive-Skript als Schritt aus....................................................................... 23 Übersicht über das Hive-Skript............................................................................................ 24 Senden des Hive-Skripts als Schritt..................................................................................... 25 Anzeigen der Ergebnisse................................................................................................... 25 Schritt 5: Abfragen Ihrer Daten mit Hue........................................................................................ 26 Erstellen eines SSH-Tunnels am Master-Knoten.................................................................... 26 Melden Sie sich bei Hue an und übermitteln Sie eine interaktive Hive-Abfrage............................ 28 (Optional) Schritt 6: Erkunden Sie Amazon EMR............................................................................ 28 (Optional) Schritt 7: Entfernen der in diesem Tutorial verwendeten Ressourcen................................... 29 Planen und Konfigurieren von Clustern................................................................................................ 31 Konfigurieren von Cluster-Standort und Datenspeicher.................................................................... 31 Auswählen einer AWS-Region............................................................................................ 32 Arbeiten mit Storage- und Dateisystemen............................................................................. 33 Vorbereiten von Eingabedaten............................................................................................ 35 Konfigurieren eines Ausgabespeicherorts.............................................................................. 46 Verwendung des EMRFS (EMR File System)................................................................................ 51 Konsistente Ansicht........................................................................................................... 52 Zugriff auf EMRFS-Daten in Amazon S3 genehmigen............................................................. 68 Angeben der Amazon S3-Verschlüsselung mit EMRFS-Eigenschaften....................................... 69 Konfigurieren eines Clusters als vorübergehend oder langlebig........................................................ 76 iii Amazon EMR Entwicklerhandbuch Konfigurieren der Cluster-Software.............................................................................................. 77 Auswählen eines Amazon Machine Image (AMI).................................................................... 78 Wählen Sie eine Hadoop-Version aus................................................................................ 138 Erstellen von Bootstrap-Aktionen zur Installation zusätzlicher Software.................................... 148 Konfigurieren von Cluster-Hardware und Netzwerken.................................................................... 159 Master-Knoten................................................................................................................ 159 Core-Knoten................................................................................................................... 159 Aufgabenknoten.............................................................................................................. 160 Instance-Flotten.............................................................................................................. 160 Einheitliche Instance-Gruppen........................................................................................... 160 Planen und Konfigurieren von EC2 Instances...................................................................... 160 Planen und Konfigurieren von Netzwerken.......................................................................... 166 Erstellen eines Clusters mit Instance-Flotten oder einheitlichen Instance-Gruppen...................... 174 Konfigurieren der Cluster-Protokollierung und des Debuggings....................................................... 190 Standardmäßige Protokolldateien....................................................................................... 190 Archivieren von Protokolldateien in Amazon S3................................................................... 191 Aktivieren des Debugging-Tools........................................................................................ 193 Informationen zur Debugging-Option.................................................................................. 194 Tag-Cluster............................................................................................................................ 194 Tag-Einschränkungen...................................................................................................... 195 Markieren von Ressourcen für die Fakturierung................................................................... 196 Hinzufügen von Tags zu einem neuen Cluster..................................................................... 196 Hinzufügen von Tags zu einem vorhandenen Cluster............................................................ 197 Anzeigen von Tags in einem Cluster.................................................................................. 198 Entfernen von Tags aus einem Cluster............................................................................... 199 Treiber und Drittanbieter-Anwendungsintegration.......................................................................... 199 Verwenden von Business Intelligence-Tools in Amazon EMR................................................. 200 Analysieren von Daten mit HParser................................................................................... 200 Verwenden der MapR-Distribution für Hadoop..................................................................... 201 Sicherheit....................................................................................................................................... 211 Verwenden Sie IAM-Richtlinien, um Benutzerberechtigungen zu erteilen oder zu entziehen................. 212 Amazon EMR-Aktionen in benutzerbasierten IAM-Richtlinien.................................................. 212 Verwenden von verwalteten Richtlinien für den Benutzerzugriff............................................... 213 Verwendung von eingebundenen Richtlinien für Benutzerberechtigungen................................. 215 Verwenden Sie ein Cluster-Tagging mit IAM-Richtlinien für eine Cluster-spezifische Steuerung..... 216 Verwendung der Kerberos-Authentifizierung................................................................................ 220 Unterstützte Anwendungen............................................................................................... 220 Konfigurieren von Kerberos.............................................................................................. 221 Konfigurieren eines Cluster-spezifischen KDC...................................................................... 226 Konfigurieren einer bereichsübergreifenden Vertrauensstellung............................................... 228 Verwenden eines Amazon EC2-Schlüsselpaars für SSH-Anmeldeinformationen................................ 234 Verschlüsselung von übertragenen und gespeicherten Daten......................................................... 234 Verschlüsselungsoptionen verstehen.................................................................................. 235 Schlüssel und Zertifikate für die Datenverschlüsselung erstellen............................................. 238 EMRFS-Autorisierung für Daten in Amazon S3............................................................................ 240 Wie die EMRFS-Autorisierung funktioniert........................................................................... 240 Einrichten der EMRFS-Autorisierung.................................................................................. 241 Steuerung des Netzwerkverkehrs mit Sicherheitsgruppen.............................................................. 243 Verwenden von von Amazon EMR verwalteten Sicherheitsgruppen......................................... 243 Konfigurieren von zusätzlichen Sicherheitsgruppen............................................................... 248 Verwenden von Sicherheitskonfigurationen zum Einrichten der Cluster-Sicherheit.............................. 250 Erstellen einer Sicherheitskonfiguration............................................................................... 251 Angabe einer Sicherheitskonfiguration für einen Cluster........................................................ 262 Konfigurieren von IAM-Rollen für Amazon EMR-Berechtigungen für AWS-Services............................ 263 Verwenden Sie IAM-Standardrollen und verwalteten Richtlinien.............................................. 265 Benutzern und Gruppen gestatten, Rollen zu erstellen und zu ändern...................................... 270 IAM-Rollen anpassen....................................................................................................... 271 iv Amazon EMR Entwicklerhandbuch Angabe benutzerdefinierter IAM-Rollen beim Erstellen eines Clusters...................................... 271 Verwenden Sie IAM-Rollen mit Anwendungen, die AWS-Services direkt aufrufen....................... 273 Verwenden der serviceverknüpften Rolle............................................................................ 274 Ausführen einer Hadoop-Anwendung zur Verarbeitung von Daten........................................................... 280 Erstellen von Binärdateien mit Amazon EMR............................................................................... 280 JAR-Anforderungen................................................................................................................. 282 Ausführen eines Skripts in einem Cluster.................................................................................... 282 Senden eines benutzerdefinierten JAR-Schritts mithilfe der AWS CLI....................................... 283 Verarbeiten von Daten per Streaming......................................................................................... 284 Verwenden des Hadoop Streaming-Dienstprogramms........................................................... 284 Senden eines Streaming-Schritts....................................................................................... 286 Datenverarbeitung mit Cascading.............................................................................................. 288 Senden eines Cascading-Schritts....................................................................................... 288 Datenverarbeitung mit einer benutzerdefinierten JAR-Datei............................................................ 290 Senden eines benutzerdefinierten JAR-Schritts.................................................................... 290 Hive und Amazon EMR (EMR 3.x Releases)....................................................................................... 292 Unterschiede zwischen Amazon EMR Hive und Apache Hive......................................................... 292 Combine Splits-Eingabeformat........................................................................................... 293 Protokolldateien.............................................................................................................. 293 Thrift-Service-Ports.......................................................................................................... 294 Hive-Autorisierung........................................................................................................... 294 Dateizusammenführung mit Hive in Amazon S3................................................................... 294 ACID-Transaktionen und Amazon S3................................................................................. 295 Zusätzliche Funktionen von Hive in Amazon EMR................................................................ 295 Unterstützte Hive-Versionen...................................................................................................... 303 Anzeigen der Hive-Version............................................................................................... 311 Freigeben von Daten in Hive-Versionen.............................................................................. 311 Senden von Hive-Daten........................................................................................................... 312 Senden von Hive-Daten mit der Amazon EMR-Konsole......................................................... 312 Senden von Hive-Daten mit der AWS CLI........................................................................... 312 Konfigurieren eines externen Metastores für Hive......................................................................... 314 Verwenden des AWS Glue Data Catalog als Metastore für Hive............................................. 314 Verwenden einer externen MySQL-Datenbank oder von Amazon Aurora.................................. 316 Verwenden des Hive-JDBC-Treibers.......................................................................................... 319 Spark ............................................................................................................................................ 322 Spark-Release-Informationen für diese Version von Amazon EMR.................................................. 322 Verwenden von Spark im interaktiven Modus oder im Batch-Modus................................................ 322 Erstellen eines Clusters mit Spark............................................................................................. 323 Verwenden des AWS Glue Data Catalog als Metastore für Spark SQL............................................ 324 Angeben von AWS Glue Data Catalog als Metastore............................................................ 325 IAM-Berechtigungen........................................................................................................ 315 Nicht unterstützte Konfigurationen, Funktionen und bekannte Probleme................................... 316 Konfigurieren von Spark (EMR 3.x Releases).............................................................................. 326 Ändern von Spark-Standardeinstellungen............................................................................ 327 Zugriff auf die Spark-Shell........................................................................................................ 328 Verwendung von Amazon SageMaker Spark für Machine Learning................................................. 329 Schreiben einer Spark-Anwendung............................................................................................ 329 Scala............................................................................................................................. 329 Java.............................................................................................................................. 330 Python 2.7...................................................................................................................... 331 Hinzufügen eines Spark-Schritts................................................................................................ 331 Überschreiben der standardmäßigen Spark-Konfigurationseinstellungen................................... 333 Anzeigen des Spark-Anwendungsverlaufs................................................................................... 334 Impala........................................................................................................................................... 335 Wozu kann ich Impala verwenden?............................................................................................ 335 Unterschiede zu herkömmlichen relationalen Datenbanken............................................................ 336 Unterschiede zu Hive............................................................................................................... 336 v Amazon EMR Entwicklerhandbuch Tutorial: Starten und Abfragen von Impala-Clustern in Amazon EMR............................................... 336 Registrieren für den Service............................................................................................. 337 Starten des Clusters........................................................................................................ 337 Generieren von Testdaten................................................................................................ 338 Erstellen und Füllen von Impala-Tabellen............................................................................ 339 Abfragen von Daten in Impala........................................................................................... 339 Im Amazon EMR-AMI enthaltene Impala-Beispiele....................................................................... 340 TPCDS.......................................................................................................................... 340 Wikipedia....................................................................................................................... 341 Unterstützte Impala-Versionen................................................................................................... 343 Updates für Impala 1.2.4.................................................................................................. 343 Speicheranforderungen von Impala............................................................................................ 344 Verwendung von Impala mit JDBC............................................................................................ 344 Der Zugriff auf Impala Webbenutzeroberflächen........................................................................... 345 Von Impala unterstützte Datei- und Komprimierungsformate........................................................... 345 Impala SQL-Dialekt................................................................................................................. 346 Benutzerdefinierte Funktionen von Impala................................................................................... 346 Leistungstests und Abfrageoptimierung für Impala........................................................................ 346 Datenbankschema........................................................................................................... 346 Beispieldaten.................................................................................................................. 347 Tabellengröße................................................................................................................. 347 Abfragen........................................................................................................................ 348 Leistung – Testergebnisse................................................................................................ 349 Optimieren von Abfragen.................................................................................................. 352 Apache Pig.................................................................................................................................... 354 Unterstützte Pig-Versionen....................................................................................................... 354 Details zur Pig-Version..................................................................................................... 356 Weitere Pig-Funktionen.................................................................................................... 358 Interaktive Pig-Cluster und Batch-Pig-Cluster............................................................................... 358 Übermitteln von Pig-Aufträgen................................................................................................... 358 Senden von Pig-Aufträgen über die Amazon EMR-Konsole.................................................... 358 Senden von Pig-Aufträgen über die AWS CLI...................................................................... 359 Aufrufen von benutzerdefinierten Funktionen in Pig...................................................................... 360 JAR-Dateien in Pig aufrufen............................................................................................. 360 Aufrufen von Python/Jython-Skripts in Pig........................................................................... 360 HBase........................................................................................................................................... 362 HBase-Release-Informationen für diese Version von Amazon EMR................................................. 362 Wozu kann ich HBase verwenden?............................................................................................ 362 Referenzdaten für Hadoop-Analysen.................................................................................. 362 Echtzeit-Logging und Batch-Protokollanalyse....................................................................... 362 Speicher für Zähler mit hoher Frequenz und Zusammenfassungsdaten.................................... 363 Unterstützte HBase-Versionen................................................................................................... 363 HBase-Cluster-Voraussetzungen................................................................................................ 363 Installieren von HBase auf einem Amazon EMR-Cluster................................................................ 364 Verwenden der HBase-Shell..................................................................................................... 370 Erstellen einer Tabelle..................................................................................................... 370 Eingeben eines Werts...................................................................................................... 370 Abrufen eines Werts........................................................................................................ 370 Zugreifen auf HBase-Tabellen mit Hive....................................................................................... 371 Sichern und Wiederherstellen von HBase................................................................................... 372 Sichern und Wiederherstellen von HBase mit der Konsole..................................................... 373 Sichern und Wiederherstellen von HBase über die AWS CLI.................................................. 375 Beenden eines HBase-Clusters................................................................................................. 377 Konfigurieren von HBase.......................................................................................................... 378 Konfigurieren von HBase-Daemons.................................................................................... 378 Konfigurieren der HBase-Standorteinstellungen.................................................................... 380 Zu optimierende HBase-Standorteinstellungen..................................................................... 382 vi Amazon EMR Entwicklerhandbuch Anzeigen der HBase-Benutzeroberfläche.................................................................................... 383 Anzeigen der HBase-Protokolldateien......................................................................................... 383 Überwachen von HBase mit CloudWatch.................................................................................... 384 Überwachen von HBase mit Ganglia.......................................................................................... 384 Migrieren von vorherigen HBase-Versionen................................................................................. 386 Konfigurieren von Hue zum Anzeigen, Abfragen oder Bearbeiten von Daten............................................. 387 Was ist Hue?......................................................................................................................... 387 Erstellen eines Cluster mit installierter Hue-Anwendung................................................................ 388 Starten der Hue-Webschnittstelle............................................................................................... 389 Verwenden von Hue mit einer Remote-Datenbank in Amazon RDS................................................. 390 Fehlersuche.................................................................................................................... 393 Erweiterte Konfigurationen für Hue............................................................................................. 393 Konfigurieren von Hue für LDAP-Benutzer.......................................................................... 393 Einschränkungen des Metastore-Managers................................................................................. 397 Analysieren von Amazon Kinesis-Daten.............................................................................................. 398 Welche Funktionen bietet die Amazon EMR- und Amazon Kinesis-Integration?................................. 398 Analyse von Amazon Kinesis-Streams mit Checkpointing.............................................................. 398 Empfehlungen zu bereitgestellten IOPS für Amazon DynamoDB-Tabellen................................ 399 Performanceaspekte................................................................................................................ 400 Planen von Amazon Kinesis-Analysen mit Amazon EMR-Clustern................................................... 400 Tutorial: Analysieren von Kinesis-Streams mit Amazon EMR und Hive............................................. 400 Registrieren für den Service............................................................................................. 401 Erstellen eines Amazon Kinesis-Streams............................................................................ 401 Erstellen einer Amazon DynamoDB-Tabelle........................................................................ 402 Herunterladen des Log4J Appender für die Amazon Kinesis-Beispielanwendung, die Datei mit Beispielanmeldeinformationen und die Beispielprotokolldatei.................................................. 402 Starten der Amazon Kinesis Publisher-Beispielanwendung.................................................... 404 Starten des Clusters........................................................................................................ 405 Ausführen der Ad-hoc-Hive-Abfrage................................................................................... 409 Ausführen von Abfragen mit Checkpoints............................................................................ 412 Planen von skriptbasierten Abfragen.................................................................................. 413 Tutorial: Analysieren von Amazon Kinesis-Streams mit Amazon EMR und Pig................................... 414 Registrieren für den Service............................................................................................. 415 Erstellen eines Amazon Kinesis-Streams............................................................................ 415 Erstellen einer DynamoDB-Tabelle..................................................................................... 416 Herunterladen des Log4J Appender für die Amazon Kinesis-Beispielanwendung, die Datei mit Beispielanmeldeinformationen und die Beispielprotokolldatei.................................................. 416 Starten der Amazon Kinesis Publisher-Beispielanwendung.................................................... 418 Starten des Clusters........................................................................................................ 419 Ausführen des Pig-Skripts................................................................................................ 423 Planen von skriptbasierten Abfragen.................................................................................. 427 Extrahieren, Transformieren und Laden (ETL) von Daten mit Amazon EMR.............................................. 429 S3DistCp (s3-dist-cp)............................................................................................................... 429 S3DistCp-Optionen.......................................................................................................... 430 Hinzufügen von S3DistCp als Schritt in einem Cluster........................................................... 434 Unterstützte S3DistCp-Versionen in Amazon EMR............................................................... 436 Exportieren, Importieren, Abfragen und Verknüpfen von Tabellen in DynamoDB................................ 437 Voraussetzungen für die Integration mit Amazon EMR.......................................................... 438 Schritt 1: Erstellen eines Schlüsselpaares........................................................................... 439 Erstellen eines Cluster..................................................................................................... 440 SSH im Master-Knoten.................................................................................................... 444 Einrichten einer Hive-Tabelle, um Hive-Befehle auszuführen.................................................. 446 Hive-Befehlsbeispiele für das Exportieren, Importieren und Abfragen von Daten........................ 450 Optimieren der Leistung................................................................................................... 457 Speichern von Avro-Daten in Amazon S3 mithilfe von Amazon EMR............................................... 460 Verwalten von Clustern.................................................................................................................... 462 Anzeigen und Überwachen eines Clusters.................................................................................. 462 vii Amazon EMR Entwicklerhandbuch Anzeigen von Cluster-Status und -Details........................................................................... 463 Anzeigen des Anwendungsverlaufs.................................................................................... 467 Anzeigen von Protokolldateien.......................................................................................... 469 Anzeigen von Cluster-Instances in Amazon EC2.................................................................. 473 CloudWatch-Ereignisse und -Metriken................................................................................ 474 Protokollieren von Amazon EMR-API-Aufrufen in AWS CloudTrail.......................................... 497 Überwachen der Leistung mit Ganglia................................................................................ 499 Verbinden mit dem Cluster....................................................................................................... 505 Verbinden mit dem Master-Knoten über SSH...................................................................... 506 Anzeigen von auf Amazon EMR-Clustern gehosteten Webschnittstellen................................... 511 Steuern der Cluster-Beendigung................................................................................................ 523 Beenden eines Clusters................................................................................................... 523 Verwalten der Beendigung von Clustern............................................................................. 525 Skalieren von Cluster-Ressourcen............................................................................................. 529 Auto Scaling in Amazon EMR........................................................................................... 529 Manuelle Größenanpassung eines aktiven Clusters.............................................................. 538 Cluster-Scale-Down......................................................................................................... 543 Klonen eines Clusters mithilfe der Konsole.................................................................................. 545 Übermitteln von Aufträgen an einen Cluster................................................................................ 546 Arbeiten mit Schritten unter Verwendung der CLI und Konsole............................................... 546 Interaktives Übermitteln von Hadoop-Aufträgen.................................................................... 549 Hinzufügen von mehr als 256 Schritten zu einem Cluster...................................................... 551 Automatisieren wiederkehrender Cluster mit AWS Data Pipeline..................................................... 551 Fehlerbehebung für einen Cluster...................................................................................................... 553 Welche Tools sind zur Fehlerbehebung verfügbar?...................................................................... 553 Tools zum Anzeigen von Cluster-Details............................................................................. 553 Tools zum Anzeigen von Protokolldateien........................................................................... 554 Tools zur Überwachung der Cluster-Leistung....................................................................... 554 Anzeigen und Neustarten von Amazon EMR- und Anwendungsprozessen (Daemons)........................ 555 Anzeigen von ausgeführten Prozessen............................................................................... 555 Neustarten von Prozessen................................................................................................ 556 Bekannte Probleme mit Amazon EMR-AMIs................................................................................ 556 Allgemeine Probleme....................................................................................................... 556 Bekannte Probleme mit Hadoop 2.4.0-AMIs........................................................................ 557 Bekannte Probleme mit Hadoop 2.2.0-AMIs........................................................................ 558 Probleme mit Hadoop 1.0.3-AMIs...................................................................................... 560 Fehlerbehebung für einen ausgefallenen Cluster.......................................................................... 563 Schritt 1: Sammeln von Daten über das Problem................................................................. 563 Schritt 2: Prüfen der Umgebung........................................................................................ 564 Schritt 3: Überprüfen der letzten Statusänderung................................................................. 565 Schritt 4: Überprüfen der Protokolldateien........................................................................... 565 Schritt 5: Testen des Clusters Schritt für Schritt................................................................... 566 Fehlerbehebung für einen langsamen Cluster.............................................................................. 567 Schritt 1: Sammeln von Daten über das Problem................................................................. 568 Schritt 2: Prüfen der Umgebung........................................................................................ 568 Schritt 3: Überprüfen der Protokolldateien........................................................................... 569 Schritt 4: Überprüfen der Cluster und des Instance-Zustands.................................................. 571 Schritt 5: Prüfen auf Gruppen im Status "Arrested"............................................................... 572 Schritt 6: Überprüfen von Konfigurationseinstellungen........................................................... 572 Schritt 7: Überprüfen von Eingabedaten.............................................................................. 574 Häufige Fehler in Amazon EMR................................................................................................ 575 Fehler bei der Ein- und Ausgabe....................................................................................... 575 Berechtigungsfehler......................................................................................................... 577 Memory Errors................................................................................................................ 578 Ressourcenfehler............................................................................................................ 579 Streaming-Cluster-Fehler.................................................................................................. 583 Benutzerdefinierte JAR-Cluster-Fehler................................................................................ 584 viii Amazon EMR Entwicklerhandbuch Hive-Cluster-Fehler.......................................................................................................... 585 VPC-Fehler.................................................................................................................... 586 AWS GovCloud (US-West)-Fehler...................................................................................... 588 Sonstige Probleme.......................................................................................................... 588 Schreiben von Anwendungen, die Cluster starten und verwalten............................................................. 590 Umfassendes Amazon EMR-Java-Quellcodebeispiel..................................................................... 590 Grundlegende Konzepte für API-Aufrufe..................................................................................... 594 Endpunkte für Amazon EMR............................................................................................. 594 Angeben von Cluster-Parametern in Amazon EMR............................................................... 594 Availability Zones in Amazon EMR.................................................................................... 595 So verwenden Sie weitere Dateien und Bibliotheken in Amazon EMR-Clustern.......................... 595 So verwenden Sie SDKs zum Aufrufen von Amazon EMR-APIs..................................................... 595 Verwenden des AWS SDK for Java zum Erstellen eines Amazon EMR-Clusters........................ 596 Verwenden des AWS SDK for .NET zum Erstellen eines Amazon EMR-Clusters........................ 597 Verwenden des Java SDK zur Signierung einer API-Anforderung............................................ 598 Referenz zur Hadoop-Konfiguration.................................................................................................... 600 JSON-Konfigurationsdateien...................................................................................................... 600 Knoteneinstellungen......................................................................................................... 600 Cluster-Konfiguration........................................................................................................ 602 Konfiguration von hadoop-user-env.sh........................................................................................ 604 Hadoop 2.2.0 und 2.4.0 Standardkonfiguration............................................................................. 605 Hadoop-Konfiguration (Hadoop 2.2.0, 2.4.0)........................................................................ 605 HDFS-Konfiguration (Hadoop 2.2.0)................................................................................... 618 Aufgabenkonfiguration (Hadoop 2.2.0)................................................................................ 618 Intermediäre Komprimierung (Hadoop 2.2.0)........................................................................ 619 Hadoop 1.0.3 Standardkonfiguration........................................................................................... 621 Hadoop-Konfiguration (Hadoop 1.0.3)................................................................................. 621 HDFS-Konfiguration (Hadoop 1.0.3)................................................................................... 632 Aufgabenkonfiguration (Hadoop 1.0.3)................................................................................ 632 Intermediäre Komprimierung (Hadoop 1.0.3)........................................................................ 636 Hadoop 20.205 Standardkonfiguration (veraltet)........................................................................... 636 Hadoop-Konfiguration (Hadoop 20.205).............................................................................. 637 HDFS-Konfiguration (Hadoop 20.205)................................................................................. 640 Aufgabenkonfiguration (Hadoop 20.205)............................................................................. 641 Intermediäre Komprimierung (Hadoop 20.205)..................................................................... 644 Referenz zur Befehlszeilenschnittstelle für Amazon EMR....................................................................... 645 Angeben von Parameterwerten in AWS CLI für Amazon EMR........................................................ 645 Festlegen von Parametern mit der Befehlszeile.................................................................... 646 Anzeigen von Parameterwerten mit der Befehlszeile............................................................. 646 Festlegen von Parametern mit der Konfigurationsdatei.......................................................... 646 Installieren der Amazon EMR-Befehlszeilenschnittstelle (veraltet).................................................... 647 Installieren von Ruby....................................................................................................... 647 Überprüfen des Frameworks für die RubyGems-Paketverwaltung............................................ 648 Installieren der Amazon EMR-Befehlszeilenschnittstelle......................................................... 648 Konfigurieren von Anmeldeinformationen............................................................................ 649 SSH-Anmeldeinformationen.............................................................................................. 651 Aufrufen der Befehlszeilenschnittstelle (veraltet)........................................................................... 652 Optionen der AWS EMR-Befehlszeilenschnittstelle (veraltet).......................................................... 653 Allgemeine Optionen........................................................................................................ 653 Seltene Optionen............................................................................................................ 655 Häufige Optionen für alle Schritt-Typen.............................................................................. 656 Hinzufügen und Ändern von Instance-Gruppen.................................................................... 656 Hinzufügen von JAR-Schritten zu Auftragsverläufen.............................................................. 658 Hinzufügen von JSON-Schritten zu Auftragsverläufen........................................................... 659 Hinzufügen von Streaming-Schritten zu Auftragsverläufen...................................................... 660 Zuweisen einer Elastic IP-Adresse zum Master-Knoten......................................................... 663 Verbinden mit dem Master-Knoten..................................................................................... 664 ix Amazon EMR Entwicklerhandbuch Erstellen von Auftragsverläufen......................................................................................... 665 Verwenden von HBase-Optionen....................................................................................... 672 Verwenden von Hive-Optionen.......................................................................................... 681 Verwenden von Impala-Optionen....................................................................................... 686 Auflisten und Beschreiben von Auftragsverläufen................................................................. 687 Übergeben von Argumenten an Schritte............................................................................. 689 Verwenden von Pig-Optionen............................................................................................ 691 Angeben von Schrittaktionen............................................................................................. 693 Angeben von Bootstrap Aktionen....................................................................................... 695 Markieren....................................................................................................................... 700 Beenden von Auftragsverläufen......................................................................................... 702 Verwenden von S3DistCp................................................................................................. 704 Veröffentlichungen der AWS EMR-Befehlszeilenschnittstelle (veraltet)............................................. 707 Dokumentverlauf............................................................................................................................. 710 x
Description: