Flume

Apache Flume findet bei Logfiles Einsatz, speziell bei Web-Server-Logs.

 

Source Beschreibung
netcat Der Flume Agent horcht auf einem TCPIP Port. Dies wird für Tests verwendet.
syslogtcp Wird für Webserver verwendet, die ihre Logfiles mittels Tools wie Rsyslog und Syslog-ng verteilen.
exec Wird verwendet, um auf dem Webserver Befehle wie tail -f /etc/httpd/logs/access_log auszuführen und als Quelle zu werwenden.

 

Channel Beschreibung
memory Der Kanal speichert die Daten im Speicher, sollte nicht in Produktion eingesetzt werden.
JDBC Wird verwedent, um die Daten in einer Datenbank zwischen zu speichern.
kafka Kann verwendet werden, um die Daten als Kafka Topic zur speichern, in diesem Fall wird keine Sink benötigt.

 

Sink Beschreibung
logger Die Daten werden auf der Konsole des Agenten aus gegeben. Gut für das Testing geeignet.
avro Wird verwendet, um mehrere log-files verschiedener Webserver zusammen zu führen oder um die Daten auf HDFS zu speichern.

Man muss nur eine Konfigurationsdatei anlegen und den Agent starten.