Rafazwonull vs Joe I/O


Blogosphären Visualisierung
29.07.2009, 20:31
Gespeichert unter: Datamining, Visualisierung | Schlagworte: , , , ,

Beeindruckend. Matthew Hurst hat in seinem Blog einige Blogosphären Visualisierungen veröffentlicht. Mein persönlicher Favorit ist die folgende:

via http://datamining.typepad.com/

via http://datamining.typepad.com/

Dazu schreibt Matthew:

The dark edges show the reciprocal links (where A has cited B and B has cited A), the lighter edges indicate a-reciprocal links. The larger, denser area of the graph is that part of the blogosphere generally characterised by socio-political discussion (the periphery contains some topical groupings). Above and to the left is that area of the blogosphere concerned with technical discussion and gadgetry.

Mehr Visualisierungen gibt es in seinem Artikel Science July 24th 2009.

-r-



Data Cleansing and Quality Model Generation
24.04.2009, 9:06
Gespeichert unter: Datamining, In eigener Sache, Information | Schlagworte: , , ,

Hello World,
after a long time of idleness I thought I might give you an update on my work.

I have crawled quite of lot of pages until now and I have built up some interesting collections of controlled and random pages in English and German. The russian collection is currently being generated due to Max’ help and I am looking forward to finding out its features. Alas, nobody seems to know any Persian or Persian-speaking people (Can anybody help out?).

I have run some tests and I got some interesting results. First of all, it seems to be really really important to have very(!) clean data. At the beginning I only imported the data into Excel, cleansed it and exported it again. The classifiers had accuracies up to 80% after Ten-Fold-Cross validation which was somewhat disappointing. I tried to cleanse the data once again by removing the „0″-entries where the crawler failed to determine values, but the accuracy dropped even further to about 30%. I manually checked up on the accuracy of the crawler and it seems to be a rather rare case that the crawler cannot analyze some features, and I have a 95% propability to get any value correct. If I remove the 0-values, of which 95% were correct, the classifier just lacks information. Finally I found out another reason for error: Excel converts decimals to dates (01.05. to 01. May 2009) and you really need to be careful about this. I changed the settings to avoid this, and even with Naive Bayes I get accuracies of over 90% after 10-Fold-Cross. This is kind of an success. However, this accuracy is a combination of the classifiers ability of recognizing quality-blogs and mediocre blogs, and in general it is much easier to determine the latter ones. The distribution of the correctly classified instances gives you a better estimate of the classifiers reliability:

accuracy_after_10f-c1

As expected, the link-based features work best by the way. Google-Indegree is really a good measure, but Comment-based analysis seems to get you reliable results as well. I found some other graphic features which get you about 20% information-gain, but I do not know how to interpret this yet.

In another test-setting I tried to tell apart English from German blogs with the features I logged. As it seems I get about 50% correct (which is close to „It does not work!“), even with clean data.

Looking forward to reporting more…
-r-



Wordle
22.06.2008, 19:55
Gespeichert unter: Information | Schlagworte: , , ,

Wordle ist ein Java-Tool mit dem man sich Tagwolken aus beliebigen Texten erstellen kann. Hier eine Tagwolke generiert aus unserem „Über uns“. Sicherlich interessant für Präsentationen etc.!

via acidlabs

-j-



Widgets für mobile Geräte: Persönliche Eindrücke von Nokias „WidSets“
5.06.2008, 19:47
Gespeichert unter: In eigener Sache, Information, Mobile, User Interface | Schlagworte: , , , ,

Ich habe heute WidSets ausprobiert, einen durch Nokia Beta Labs entwickelten Dienst. Ich bin zwar immer skeptisch, wenn mir irgendwelche stand-alone Applikationen angeboten werden, mit denen man angeblich noch einfacher auf netzbasierte Dienste zugreifen kann, aber im Fall von WidSets konnte ich nicht widerstehen:

With WidSets you can get your favorite web content straight to your mobile phone. Find news and information, stay in touch with email and blogs, play games, share pictures and more. WidSets uses mini-applications called widgets to push updates from your favorite sites directly to your phone. Why waste time surfing for information when WidSets can do it for you? (via Widsets.com)

Noch spannender als die Funktionsweise ist aber das Aussehen des Programms: alles ist rund, flüssig und es kommt ein wirklich angenehmes Web2.0-Gefühl auf ;) . Nach ganz kurzem Synchronisierungsvorgang huschen die Icons auf meinem Display sanft und ruckelfrei hin und her, das Laden von RSS-Feeds geht schnell von statten und unaufdringliche Meldungen informieren mich, ob etwas noch lädt, wo ich mich einlogge und dass der Dienst Zusatzkosten verursachen könnte (ein beeindruckendes Video findet ihr hier). Nutzern von WAP kann ich eher von dem Programm abraten: man darf nicht vergessen, welche Datenmenge (Bilder, Symbole…) aus dem Netz auf das mobile Gerät geschaufelt werden. Im heimischen WLAN macht es schon Spaß, richtig beeindrucken dürfte der Dienst dann aber, wenn man irgendwo im Kaffee auf einen öffentlichen Zugangspunkt zugreift (nutzt Devicescape!).

Die Widgets selbst werden über ein Online-Portal verwaltet und können bei Bedarf selbst entwickelt werden. Die Bandbreite reicht hier von Twitter und Wikipedia über E-Mail-Clients bis hin zu Nachrichten-Feeds und privaten Blogs. Die Einstellungen werden dann, sobald man mit dem mobilen Gerät online ist, sofort übertragen.

Ich habe das ganze auch einmal zum Anlass genommen, ein eigenes Widget für diesen Blog zu entwerfen und zu veröffentlichen. Abonnieren könnt ihr es wie gewohnt über die Kategorie „Syndication“.

Widsets hat mir heute eine Menge Spaß gemacht. Ob es mein mobiles Surfverhalten verändern wird, bleibt abzuwarten. Interessant an der Idee ist, dass obwohl die Möglichkeit, sich frei im Netz zu bewegen an sich eingeschränkt ist, die Nutzerfreundlichkeit durch die vereinfachte Interaktion und den vorab vorgenommene Selektion wesentlich zunimmt (meint auch Joe!). Widsets ist eine wirklich tolle Alternative dazu, Beiträge einfach im mobilen Browser per RSS zu lesen. Probiert es also einfach mal aus und schreibt mir von euren Eindrücken!

-r-



News in 3D: MSNBC Spectra
19.05.2008, 12:59
Gespeichert unter: User Interface | Schlagworte: , ,

Spectra wurde wie das Beispiel aus meinem letzten Beitrag mit der freien Flash-Engine Papervision3D erstellt und aggregiert Newsfeeds. Man kann farbkodierte Feeds in einer 3D-Umgebung browsen und wenn man eine Webcam hat werden sogar Farben erkannt und entsprechend kodierte News angezeigt. Sehr nett!

Durch die Flut an News und Blogs die man täglich liest werden alternative Browsingmethoden immer interessanter. Zur Zeit stellt sich mir aber noch die Frage, ob die neuartigen Ansätze nur Spaß machen und den Wow-Effekt haben, oder ob sie das Informieren wirklich effizienter machen, aber seht selbst:

http://msnbcmedia.msn.com/i//msnbc/Components/spectra/index.html

(via Three Minds)

-j-



Warum habe ich noch nie etwas von Information Mapping gehört?
29.03.2008, 12:30
Gespeichert unter: Information, Studium | Schlagworte:

Ich habe mich heute morgen ein wenig über Information Mapping schlau gemacht:

Die Information Mapping Methode wurde von Prof. Robert E. Horn (Harvard University, Boston) zur Vereinfachung des Erstellungsprozesses von Dokumenten und zur Unterstützung der Informationsaufnahme entwickelt. Sie beruht auf allgemein gültigen Ergebnissen von Untersuchungen der kognitiven Psychologie, die sich damit beschäftigen, wie Informationen strukturiert, geschrieben und gestaltet werden müssen, so dass sie vom Benutzer optimal aufgenommen und umgesetzt werden könne. (via information-mapping-online.de)

Eine ganz nette Vorher-Nachher-Demonstration (die bei der Akquise immer zieht!), findet man dazu hier.

Bevor ich jetzt den Sinn oder Unsinn dieses Ansatzes hinterfrage, der ja an sich davon ausgeht, dass strukturierte Information leichter aufgenommen werden kann als unstrukturierte (und das dann in einen Kostenrahmen einordnet), frage ich mich, warum ich in meinem inzwischen ja doch dreijährigen Studium einer einschlägigen Fachrichtung noch nie etwas von Information Mapping gehört habe. Ist Information Mapping nun ein nicht ausreichend renommierter Ansatz, oder zu trivial für die Lehre? Oder ist es wieder nur ein tolles Schlagwort, dass man sich auf den Lebenslauf schreiben kann? Immer häufiger ärgere ich mich in letzter Zeit darüber, dass während eines Studiums nur der Schwerpunkt der jeweiligen Dozenten als das Wesentliche einer Fachrichtung vermittelt wird, und weitere Vertiefungsmöglichkeiten gar nicht zur Sprache kommen. So etwas schmeisst Studenten einer kleineren Hochschule gegenüber Abgängern von großen Instituten mit mehr Dozenten fachlich einfach aus dem Rennen.



Digitaler Selbstmord
6.03.2008, 21:40
Gespeichert unter: Information, Netzkultur | Schlagworte: , , , ,

Bin heute auf einen Spiegel-Artikel gestolpert, der im Selbstversuch das Leben nach StudiVz und Xing beschreibt, und gut in die Kategorie Kommunikations-Sucht passt.



WikiScanner: List anonymous wikipedia edits from interesting organizations

Und hier, bevor es ins Bett geht, noch ein richtig interessantes kleines Projekt von Virgil Griffith. Der Wikiscanner ordnet Änderungen und Beiträge im Netz anhand von IP-Adressen Firmennetzwerken zu. Beliebt scheint der Student deswegen nicht gerade zu sein:

Griffith … a „disruptive technologist,“ has caused public relations disasters… –Washington Post

Und ja: „disruptive“ ist eindeutig das richtige Wort! Selbst ich stelle mir nach fünf Minuten Herumspielen die Frage, warum ausgerechnet vom Netzwerk der Bundeswehr aus der Wikipediaartikel zu „Analfissur“ modifiziert wird. Zumindest werde ich in Zukunft ein wenig vorsichtiger sein, welche Seiten ich bei der Arbeit besuche…



Picidae
24.02.2008, 19:38
Gespeichert unter: Information | Schlagworte: ,

Und da wir schon mal bei Internetzensur sind, hier auch gleich eine unterstützenswerte Gegeninitiative:

Picidae ist ein Kunstprojekt der beiden Schweizer Christoph Wachter und Mathias Jud. Es handelt sich bei Picidae um eine Webseite, mittels welcher andere Webseiten in digitale Bilder verwandelt werden. Dabei bieten die Abbilder sämtliche Funktionen der Ursprungsseiten. Das Verfahren ermöglicht es unter anderem, Zensurmechanismen zu umgehen.

Die Filter, welche die ungewollten Webseiten sperren, orientieren sich unter anderem an Zeichenketten. Befindet sich ein Wort auf einer Webseite, dass unzulässig ist, so wird diese gesperrt. Im Browser erscheint dann eine Fehlermeldung. Um einen solchen Filter zu umgehen, erstellt der Picidae-Server ein digitales Bild der Webseite; somit werden die Zeichenketten nicht mehr für den Filter erkennbar. Links und Elemente wie Formulare werden zudem über das Bild gestülpt, wodurch das Picidae-Abbild der Webseite wie die „echte“ Webseite funktioniert.

Die Kritik bezieht sich lediglich auf die Machbarkeit, nicht auf den künstlerischen Aspekt: Damit die Webseite in den zensierenden Staaten als Tor zum Web funktioniert, darf sie nicht gesperrt sein; dies wird sich bei der Projektseite nicht vermeiden lassen. Die Künstler stellen in dieser Voraussicht den Picidae-Quelltext bereit und hoffen, dass ein Netzwerk aus möglichst vielen Servern entsteht. Somit würde das Projekt unabhängig von der Mutterseite Früchte tragen. Es hängt also letztlich alles von der Beteiligung der Internetgemeinde ab. (via Wikipedia.de: Picidae)



2×3.cu
24.02.2008, 19:14
Gespeichert unter: Information | Schlagworte: , ,

Die staatliche Suchmaschine 2×3.cu, ein Traum an Recall und Exhaustivity. Ihre Objektivität zeigt sich vor allem bei der Eingabe des Begriffes „BUSH“.