In der c’t-Ausgabe 23/2009 gibt es einen Artikel mit Namen Elefantengedächnis, der beschreibt, wie man die Twitter-Timeline nebst Links und Bilder archivieren kann. Zwei Gedanken gingen mir nacheinander durch den Kopf. Erstens: “Hätte ich doch etwas gewartet, da hätte mir dann jemand Arbeit abgenommen”. Zweitens: “Zum Glück habe ich vorher angefangen und meine eigenen Erfahrungen gesammelt”.

Im Unterschied zu Twacbak ist Twitterbak mit Hilfe von Perl und PHP implementiert. Der Perl-Code dient dazu Twitter regelmäßig per API abzufragen und die Ergebnisse abzuspeichern. Mit PHP wird ein web-basierter Dienst implementiert, um die Ergebnisse anzuzeigen und zu durchsuchen. Schwerpunkt von Twitterbak ist das Archivieren der eigenen Tweets.

Ist Twitterbak eine Konkurrenz zu Twacbak?

Auf jeden Fall. Eine gute dazu.

Das Profil von Twitterbak ist klar: Datensicherung. Wohin die Reise mit Twacbak hingehen wird, ist mir dagegen noch nicht klar.

Was gibt es an Ähnlichkeiten? Beide wollen die Ergebnisse von Twitter-Aktivitäten längerfristig sichern, beide nutzen dazu SQLite als interne Datenbank. Beide sichern die eigenen Tweets, die direkten Nachrichten und die sog. Mentions, d.h. Tweets, in denen der eigene Account erwähnt wird. Beide sollen periodisch im Hintergrund, z.B. als Cron-Job, ablaufen.

Was kann Twacbak darüber hinaus? Twacbak kann auch die gesamte Timeline sichern, d.h. alle Tweets aller Account, denen man selbst folgt. Es werden die Favoriten gesichert und, ganz wichtig, alle Friends und Follower. Ich weiß, wovon ich spreche. Die Liste derjenigen denen man folgt ist ein fast so wertvolles Asset, wie die eigenen Tweets. Nebenher speichert Twacbak die Friend/Follow-Historie, denn es gibt immer wieder welche, die einem abwechselnd folgen und wieder nicht folgen. Damit ist Twacbak nicht nur ein Werkzeug zum Sichern der Twitter-Aktivitäten, sondern unterstützt diese auch. Mit Twacbak können sebst auch Tweets gesendet werden, Re-Tweets auf Basis von Schlüsselworten werden unterstützt, auch das Folgen per Kommandozeile geht.

Viele der anderen Unterschiede sind Geschmackssache. Ob ich nun das Ganze über eine Konfigurationsdatei steuere oder ob die Daten in der Datenbank selbst abgelegt werden: jeder wird für beides Vor- und Nachteile finden. Ditto für Änderungen am Quellcode selbst und einige Befehlsoptionen mehr gegenüber der Wahl für eine kleine Skriptsprache. Letztens Endes Firlefanz für einen Vergleich.

Natürlich kann das eine oder andere auch schnell von Twitterbak implementiert werden. Auch die größere Fehlertoleranz, wenn Twitter mal wieder nicht verfügbar ist. Darauf freue ich mich.

Ich habe für Twacbak die Anregung aufgenommen, die kurzen URL zu ermitteln, die sich hinter den Twitter-typischen Short-URL’s (z.B. via bit.ly) verbergen. Das gleiche gilt für Bilder. Nebenbei, dank der Python-Bibliotheken (“Batteries included“) geht das Ganze leichter und weniger fehleranfällig von der Hand. (Die Spitze musste sein, ich nehm das aber nicht zu ernst ;-) )

Über den Artikel habe ich mich sehr gefreut. Bestätigt er doch, wie sinnvoll es ist, selbst für die Sicherung der eigenen Daten zu sorgen und sich nicht immer nur irgendwelchen obskuren Web-Diensten anzuvertrauen. Ich werde die Entwicklung von Twacbak im Rahmen meines knappen Zeitbudgets vorantreiben und immer mal nach nebenan zur Konkurrenz schielen.

Die belebt nämlich auch den eigenen Geist.

, , , , ,

Lange habe ich mich schon um die Anforderungen zu Twacbak herumgedrückt. Im
Kopf waren Sie schon, aber nicht zu Papier. Und, als weitere Ausrede, musste
ich erst einmal ausprobieren, was die Twitter-API so alles hergibt. Damit bin ich nun soweit fertig, einen ersten Prototyp habe ich auch schon.

Also, was sind (meine) Anforderungen?

Funktionalität

  • Sichern aller grundlegenden Daten eines Twitter-Accounts, wie:
    • Benutzerdaten (Name, Location, eigene URL, Bio, … so wie sie im Profile / Setting angegeben werden),
    • alle eigene Tweets,
    • Favorites,
    • gesendete Nachrichten,
    • empfangene Nachrichten,
    • Liste der Friends, d.h. der Accounts, denen man folgt,
    • Liste der Follower, d.h. die Account, die einem folgen.
  • Sichern von nützlichen Zusatzinformationen:
    • Wann ist mir wer gefolgt, wann hat er mich aus seiner Liste gelöscht?
    • Wann bin ich jemanden gefolgt, wann habe ich das Verfolgen aufgegeben?
    • Was haben meine Friends so getwittert?
    • Wenn jemanden eine Antwort getwittert hat, auf welchen Tweet welchen Benutzers bezog sich diese Antwort?
  • Die gesammelten Daten sollen auf den Bildschirm / in eine Datei ausgegeben werden können.
  • Darüber hinaus sollen folgende Berichte (Bildschirm / Datei) ausgegeben werden:
    • Liste der Accounts, die kürzlich das Verfolgen eingestellt haben
    • Detailinformationen zu Accounts, z.B. wann bin ich gefolgt, wann wurde meinem Account gefolgt, wann wurde das Verfolgen eingestellt und wieder aufgenommen, …
    • Durchsuchen der Tweets nach bestimmten Begriffen.
  • Sobald von Friends Tweets mit einem definierten Hashtag erscheinen, sollen diese Retweetet werden.
  • Eigene Tweets sollen auf einem anderen Account gespiegelt werden.
  • Gespeicherte Informationen zu Accounts sollen regelmäßig aktualisiert werden, z.B. einmal pro Woche.

Technisches

  • Die Daten sollen so abgespeichert, dass diese auch separat auswertbar sind.
  • Twacbak soll regelmäßig ohne Benutzerinteraktion die Daten von Twitter einsammeln können.
  • Es soll eine Lösung für einen Account erstellt werden.  Twacbak soll nicht für beliebig viele Accounts Daten sammeln.
  • Es sollen beliebige Microbloggingdienste unterstützt werden, welche die Twitter-API bereitstellen. Neben Twitter ist dies z.B. identi.ca.
  • Twacbak soll im Normalfall einmal pro Stunde ablaufen und dabei max. 50 Aufrufe der API tätigen.
  • Die Software soll so weit es geht platformunabhängig sein. Auf jeden Fall soll die Software unter Windows und unter Linux ablaufen.

Das wären die ersten Anforderungen. Wir alle wissen ja: der Appetit kommt beim Essen. Und wenn jemand Anregungen hat, ich nehme diese gerne entgegen ;-)

, ,

Jedes Kind muss einen Namen haben. Und für eine Heimat wäre es wohl auch dankbar. Zuerst der Name. Nicht zu lang, bin ja tippfaul. Eindeutig und aussagekräftig sollte er sein. Bisher hatte ich von “meinem Twitterbackupanalyseprogramm” gesprochen. @jbanach kam mit dem Vorschlag “Twaccback” (Twitter Account Backup). Ich habe noch zwei C’s aufgehoben. Eines für das Glücksrad, das andere für die Sesamstraße.

Als Heimat kommen auch diese Seiten in Betracht. Dann könnte ich aber entweder “nur” das gesamte Paket zum Download anbieten oder ich müsste hier Software installieren. Aber es gibt ja Dienste, welche die Softwareentwicklung unterstützen. De facto gibt es die Wahl zwischen SourceForge.net oder Google Code. Ich habe mich für SourceForge.net entschieden, weil es da einige Dienste gibt, die ich immer schon mal ausprobieren wollte: Mercurial als verteiltes Versionskontrollsystem (kann Google Code auch) und Trac (kann Google Code m.E. nicht). Beide wären auch Kandidaten für meine Veranstaltung “Projektstudie Softwareentwicklung” ;-).

Somit ist die Heimat von Twacbak gefunden.

Bleibt noch die Frage der Lizenz. Open Source sollte sie sein, von abgeschlossenen Systemen halte ich nicht zu viel. Die GPL ist mir zu viral (und einschränkend), MIT & Co. zu offen. Als Lizenz habe ich (vorläufig) die Apache License, Version 2.0 definiert.

Ja, ich weiß. Langsam sollte ich die Anforderungen definieren. *g

, ,

Ich habe heute ein wenig mit verschieden Python-Bibliotheken zum Zugriff auf der Tw***er herum gespielt. Ich wollte mir klar werden, was diese Bibliotheken können und was nicht. Eine erste Recherche (Suche nach “python twitter”) lieferte mir schon vor einiger Zeit de facto zwei erst zu nehmende Kandidaten. Beide kapseln die Tw***er-API, jedoch mit einer jeweils anderern Philosophie.

Mein erster Kandidat ist python-twitter. Damit hatte ich vor einiger Zeit meine damals 1818 Tweets gesichert. python-twitter stellt als Start die Klasse Api zur Verfügung, mit deren Methoden so gut wie alle Aufrufe durchgeführt werden. Diese Aufrufe liefern meistens Listen von Datenobjekten, wie z.B. Status, DirectMessage oder User. Mit denen kann man dann weiterarbeiten. Als Beispiel der Code, um die Texte der eigenen Timeline, mitsamt der eigenen Freunde darzustellen:

import twitter
api = twitter.Api(username='username', password='password')
timeline = api.GetFriendsTimeline()
for status in timeline:
    print status.text

Um meine Tweets zu sichern hatte ich folgenden Code ausgeführt:

import twitter
import pickle
api = twitter.Api()
timeline = api.GetUserTimeline('dkreuz', count=1818)
datei = open('sicherung.pickle', 'w')
pickle.dump(datei, timeline)
datei.close()

Alles schön handlich und gut gekapselt. Aber mit zwei Nachteilen, doch dazu später. Und wie ich später las: es klappte zufällig. Egal.

Der andere Kandidat sind die Python Twitter Tools. Hier werden nur die Aufrufe sehr grob gekapselt, die Ergebnisse sind meistens Listen von Dictionaries (a.k.a. HashMaps, für die Java-affinen Leser ;-) ). Die Implementierung orientiert sich an der des Python-Moduls xmlrpclib. Dies funktioniert, das die Tw***er-API sehr einheitlich aufgebaut ist. Die Python Twitter Tools sind so generisch, dass die meisten zu erwartenden Änderungen der Tw***er-API nicht zu Änderungen der Bibliothek führen, evtl. aber zum aufrufenden Programmcode. Methodenaufrufe werden über einen netten Python-Trick abgefangen und direkt auf die Tw***er-API abgebildet. Auch hier das Beispiel zur Darstellung der Texte der eigenen Timeline:

import twitter
api = twitter.Twitter('username', 'password')
timeline = api.statuses.friends_timeline()
for status in timeline:
    print status['text']

(Achtung: auch Python Twitter Tools stellt ein Modul mit dem Namen twitter bereit, genau wie python-twitter. Es sind aber unterschiedliche Module!)

Analog der xmlrpclib wird der Aufruf statuses.friends_timeline auf die Tw***er-API statuses/friends_timeline abgebildet. Die Python Twitter Tools definieren, im Gegensatz zu python-twitter, keine eigenen, an der Tw***er-API orientierten Methoden.

Tja, welche Bibliothek ist nun die geeignete?

Die Bibliothek python-twitter hatte ich wegen der netten Abstraktionen ausgewählt, um meine Tweets zu sichern. Das ging ganz gut. Bis ich mir die Tw***er-API im Detail angesehen habe. Zum Beispiel erlaubt es die Methode statuses/user_timeline eine minimale und eine maximale Tweet-ID anzugeben. Die Methode GetUserTimeline() von python-twitter erlaubt dagegen nur eine minimale Tweet-ID. Entweder wurde die Angabe einer maximalen Tweet-ID vom Autoren von python-twitter für nicht notwendig befunden oder diese Möglichkeit wurde erst vor kurzem von Tw***er eingeführt, aber noch nicht in python-twitter nachvollzogen. Entsprechendes gibt es von der Klasse User zu berichten: Tw***er liefert das Datum, wann der Benutzer sich bei Tw***er angemeldet hat, aber nicht python-twitter.

Der andere Punkt, der gegen python-twitter spricht, ist seine Bindung an den Dienst Tw***er. Im Quellcode ist fest und schwer änderbar für jede Methode die URL “http://twitter.com/” hineincodiert. Zum Beispiel bei GetFriendsTimeline die Zeichenkette “http://twitter.com/statuses/friends_timeline.json “. Das ist solange nicht problematisch, so lange man nur den Dienst Tw***er nutzen möchte. Ich selbst nutze parallel den Dienst identi.ca. Schließlich weiß man ja nie, was irgendwann mal mit Tw***er wird. Identi.ca basiert auf einem quelloffenen PHP-System. Und: Identi.ca bietet eine Tw***er-kompatible API an. Software, wie z.B. Gravity nutzen dies, um mehrere Accounts sowohl bei Tw***er als auch bei Identi.ca zu verwalten.

Der einzige Unterschied zwischen API-Zugriffen auf Tw***er und Identi.ca sind unterschiedliche Präfixe der URL für den HTTP-Aufruf. Für Tw***er ist es der Präfix “http://twitter.com”, für identi.ca ist es “http://identi.ca/api “. Der mobile Client Twibble erlaubt sogar die Einstellung eines eigenen Präfix, z.B. wenn man eine identi.ca-Implementierung selbst betreibt.

Und hierbei scheitert python-twitter. Eines meiner Anwendungsszenarien ist das selbstbestimmte Spiegeln von Tweets zwischen Tw***er und Identi.ca (dort heißen Tweets “Dents”, aber das ist eine andere Geschichte).

Der andere Vorteil der Python Twitter Tools ist, dass ich per Programm an alles herankomme, was mir die API bietet. Und nicht auf das beschränkt bin, was mir die Bibliothek genehmigt.

Einen Nachteil haben allerdings beide: Kommunikation ist nur über HTTP möglich, nicht über HTTPS. Aber das kann man ja ändern ;-)

Es geht weiter mit den Python Twitter Tools.

,

Knapp drei Wochen ist es her, seit dem mein Tw***er-Account nicht mehr so wie gewohnt reagiert. Wenn ich morgens in ein leeres Büro komme, sind keine netten Leute mehr da. Meine Timeline umfasst aktuell etwa die letzten 21 Follower, d.h. mit den meisten konnte ich noch keine wirkliche Beziehung aufbauen. Diejenigen, zu denen es eine Beziehung gibt, folgen mir nicht und können mir nicht folgen. Umgekehrt kann ich nicht mehr als den aktuell 17 Personen folgen. @Jimmy1966 hat dafür ein Wort geprägt: Twitterknast.

Im Gegensatz zu anderen bin ich nicht in Isolationshaft. Mein Account funktioniert ansonsten soweit. Über die @-Notation kann ich mit anderen kommunizieren, nur DM’s gehen nicht. Aber es ist schon sehr mühsam.

In den ersten Tagen wurde ich dadurch bei der Bewertung der Klausuren nicht zu sehr abgelenkt. Die Organisation des 2. Heilbronner Twittertreffens (getarnt als Twittagessen) klappte mit Hilfe meines Co-Organisators @NurIch. Der Besuch meiner Söhne wurde durch keine Diskussionen oder Anregungen auf Twitter “gestört”.

Besonders gefreut hat mich, dass mich einige auf Twitter vermissen. Sei es über direkte Nachfragen via @-Notation oder mit dem Versuch, mir wieder zu folgen. Letztere klappt zwar nicht, aber ich bekomme jedes Mal eine E-Mail. Vielen Dank an (in halbwegs chronologischer Reihenfolge): @samakah, @torridluna, @kreativgut, @Jimmy1966, @Allaboutdancing, @ok23, @lamaiire, @maennig, @WolfgangKraus, @mai_kaefer, @tadels, @jkamlowski, @AKleiner, @taxxas, @kaestnerm. Ich hoffe, ich habe keinen vergessen.

Ich ahne zwar woran es liegt (es wurden von Twitter jede Menge Spam-Accounts entfernt, das Problem meines Accounts ist wohl ein Kollateralschaden) und weshalb wenig passiert (Twitter war/ist Ziel einer DOS-Attacke), aber nach drei Wochen ist nun langsam Schluss. Ich treffe Vorbereitungen für einen Nachfolgeaccount.

Was sind meine bisherigen Ideen?

  • Die Liste der Leute, denen ich bis zum 22.07.2009 folgte, konnte ich dank TweetDeck rekonstruieren. TweetDeck speichert die Namen aller Personen / Accounts, denen ich folgte und die während es lief mindestens einen Tweet abgesetzt haben in einer internen SQLite-Datenbank. Damit fehlen mir nur die stillen Benutzer, d.h. einige Studierende meiner Veranstaltungen. Die kann ich im nächsten Semester ansprechen.
  • Mit Hilfe der API konnte ich meine gesamten Tweets sichern. Zum Glück waren es weniger als 3200, denn mehr liefert die API nicht aus.
  • Alles andere (Replies, DM’s, Favorites) kann man auch über die API sichern.
  • Also baue ich mir erst einmal eine kleine Infrastruktur auf, um meine vergangenen und zukünftigen Aktivitäten über Twitter lokal zu sichern.
  • Ich wollte sowieso mal wieder etwas programmieren.
  • Das Ganze werde ich in Python implementieren, denn es gibt gute Tools, die dabei helfen.
  • Auch Friends und Follower werde ich sichern, auch um später festzustellen, wer mir folgt und wer die Verfolgung abbricht.
  • Dafür gilt es ein kleines DB-Modell aufzubauen und ich kann gleich mal SQLAlchemy ausprobieren. Das wollte ich immer schon mal machen, mir fehlte nur die richtige Anwendung.
  • Das Problem des Accountnamens @dkreuz ist hoffentlich gelöst: Accountnamen kann man umbenennen. Ob es klappt, weiß ich nicht. Aber zur Not habe ich einen netten, selbstironischen Reservenamen.
  • Mein Identi.ca-Account ist eine gute Reserve, falls mal Twitter den Geist aufgibt.

Im Endeffekt soll eine kleine Anwendung zustande kommen, die meine Aktivitäten auf Twitter sichert. Meine Tweets kommen in eine Datenbank und werden auf Identi.ca gespiegelt. Follower und Friends werden gesichert und ich werde benachrichtigt, falls sich dort etwas ändert. Sollte ein Nachfolgeaccount auch ein Problem bekommen, kann ich schneller auf einen anderen/neuen Account wechseln.

Und zu allem Überfluss komme ich auch dazu, @hhn_eb mit etwas Leben zu füllen: der soll alle Tweets von Followern retweeten, die mit #hhneb markiert sind.

Im nächsten Schritt kümmere ich mich um die Anforderungen und Anwendungsszenarien im Detail.

, , ,