Rafazwonull vs Joe I/O


Quality Model Development
25.05.2009, 22:25
Gespeichert unter: Datamining, In eigener Sache, Information, Studium | Schlagworte: , , ,

Hi folks,

as suggested by Stefan Martens, I will provide you with some more ideas on how the model development works in data mining.

As I have written before, the basis for the model development is data which is an appropriate collection of both high quality blogs and – at best – low quality blogs.

Crawling high quality collections

The first one is easy. Where do you get a set of high quality blogs from? Technorati with its toplist of course is a good approach, but there are other ready-made collections of the best rated blogs. I chose the German Wikio-toplist, which is automatically created by an approach which is comparable to Technorati’s. I extracted the top 300 examples and fed them into the crawler. Among these supposedly high quality examples were blogs as the following ones. I will not post them as links: if my method can determine spam-blogs from non-spam blogs, the methods of highly paid Google-strategists can as well…

  • http://netzpolitik.org/
  • http://www.basicthinking.de/blog/
  • http://www.nerdcore.de/wp/
  • http://www.stefan-niggemeier.de/blog/

The blog crawler follows each of the URLs it is provided with and analyzes the blogs features. Just imagine scanning it for a set of defined characteristics. It takes into account, f.e. the length of the URL (1) , which has proved to be quite a good feature for the determination of quality in other web mining tasks. What is more, it looks for the existance of an RSS feed (2) and RSS-Comment-Feeds (4), as well as it counts the number of graphics (3), determines the blog update interval with the information from the RSS-Feed (5) and scans for the text length (7) or the length of the titles (6). These are just some examples of the 150 features the blog crawlers tries to exploit from the blogs HTML and XML structure.

Blogcrawler_Features

I have already shown you, what some of the data looks like it gathers from one blog, but this was only a part of the info which is really collected. In fact, the csv-output file you get from this collection has a size of about 1 MB.

Crawling …. well … „not so high quality“ collections

This was the easy part, but in order to create models for good blogs, you need a collection of bad blogs to seperate these from. In these terms it is like us humans: we determine what we are by knowing what we are not. The classification algorithms need info on what hiqh quality is not. Alas, there is not a collection of low quality blogs which is nearly big enough to have statistical profiles created, so I built a module, which collects a number of random pages from the web. They are random, which does not mean they have low quality, but some manual testing has confirmed the thesis that the predominant mass of the randomly collected ones have … well … less quality. The tiny number of quality blogs collected through the module does not really matter statistically. Anybody caring for a sample of not-so-good-blogs (i.e. not German top 300)?

  • http://lisungu.wordpress.com/
  • http://dasca.de/
  • http://viaperdita.wordpress.com/
  • http://armu.de/

Data Cleansing

The next step is the data cleansing. I wrote in in my other post „Status update for quality models“ how important it is to have clean data. Trust me: this is not fun! It is all a manual process, you will be staring at a lot of data in xls-tables for a long time… The result of this painful process is a 4MB csv-file with two collections in it: the blogs labelled good and the blogs labelled bad. You load this into your data mining problem and choose an algorithm which can handle nominal targets, which are the classes in context of which the classifier is to make sense out of the attribute data it is provided with (i.e. good / bad).

Classification with J48

This is where the real fun begins and you start creating your models. As an example, I chose J48 which is maybe the most intuitive algorithm. It creates a decision tree for the target classes using the attributes it is provided with. I trained it with 10-Fold-Cross validation, which is a validation method: the classifier takes 90% of the data and validated the model created through it with the 10% left. This is done ten times, and may take a while depending on what algorithm you are using and how many attributes and instances you are using it for.

The result for J48 is a decision tree and an accuracy, which tells you, what percentage of the initial classes the classifier got correctly using the attribute it was provided with. In case of a 90% correctness, this does just mean that the decision tree model from J48 attributed 90 out of 100 blogs to the correct class (ok, this is quite obvious isn’t it?). What the data mining tool is giving you is the tree and these numbers:

  • 98,55%  of „good“ recognized as „good“
  • 1,45%   of „good“ recognized as „bad“
  • 0,03% of „bad“ recognized as „good“

This is basically a confusion matrix. The decision tree, which was generated by the algorithm and which this accuracy is based upon looks like I have posted before:

This means using only the features relationLinksToSize, firstTableRowBGcolor and MeanFeedUpdateIntervall we get a correctness of 98%. We could actually reduce the number of the attributes accounted for to these three and get this accuracy, but only for the collections used. This is the offside of the model generated here: it is not easy to transfer it to other settings, you cannot tell that in general, these features are enough to tell quality blogs apart from other blogs. These results are just a hint on that these automatically seizable features are important to what we perceive as quality. What is more, these features seem to be not equally important for each language, which means that they are even more likely to be culture specific. This is why I collected some other sets of data in Russian and English to compare these results with, and as it seems the models created are far from being generally applicable. Each language-specific collection has its own discriminative features and the resulting models have greatly varying accuracies. While some of the differences can be explained by the differences within the data sets, some are due to differing blog profiles which result from the data. So what is needed are bigger crawls and representative collections to create more robust models and to be able to explain the differences of the resulting quality concepts in more detail.

-r-



Geschäftsideen im Web2.0 – Irgendwer hat meine Ideen schon vor mir gehabt…
28.07.2008, 21:04
Gespeichert unter: Netzkultur, Wirtschaft | Schlagworte: , , ,

Kürzlich musste ich erneut eine New Economy-Geschäftsidee unter der Kategorie „Da war einer schneller“ begraben. Ständig habe ich super tolle Ideen, ein unglaublich rentables Geschäftsmodell zu verwirklichen und unheimlich viel Geld zu verdienen, nur, dass sich dann nach eineinhalbminütigem Googlen herausstellt, dass schon irgenwer mehr Gripps, mehr Ressourcen, mehr Zeit, mehr BWL-Kenntnisse und mehr Unternehmergeist hatte als ich, und das ganze Ding mit einigen Features mehr in einer Beta schon umgesetzt hat.

Um auch all diejenigen von euch, die ähnlich wie ich glauben, schrecklich innovativ zu sein, zu desillusionieren, habe ich einmal eine kurze (nicht vollständige) Liste zusammengestellt. Liebe Leser, in diese Richtung müsst ihr nicht mehr denken. Gibt’s schon!!!

  • Sozial Musikhören -  www.lastfm.de
  • Personalisierte T-Shirts – www.spreadshirt.net
  • Personalisiertes Müsli – www.mymuesli.com
  • Personalisierter Aufguss – www.allmytea.de
  • Sozial Weintrinken für oenologisch Unbedarfte – www.vinorati.com
  • Kollaborativ Stadt bewohnen. www.qype.de
  • Kollaborativ irgendwo sein – www.locatik.com
  • Bücher übers Internet verkaufen – www.amazon.de (mehr hier!)
  • Zeug finden – www.google.de
  • Netzwerk für Studenten – www.studivz.de
  • Netzwerk für wen-auch-immer – www.facebook.com
  • Netzwerk für Geschäftliches – www.openbc.com aka www.xing.com
  • Kollaborativ Surfen – z.B. del.icio.us

Weitere desillusioinierende Vorschläge werden gerne in obige Liste aufgenommen. Lasst uns gemeinsam Realisten werden!

-r-



Mobile Web Watch 2008: Mobile User Experience und die Zukunft des mobilen Internet
4.07.2008, 11:35
Gespeichert unter: Mobile, UxD, Wirtschaft | Schlagworte: , , , , ,

Accenture hat vor kurzem den Mobile Web Watch 2008 veröffentlicht, in dem die derzeitige Nutzung und die zukünftigen Möglichkeiten des Webzugangs mit mobilen Geräten analysiert wird. Mich haben die Ergebnisse nicht allzu sehr überrascht, allerdings bietet er einen schönen zusammenhängenden Überblick mit vielen Umfrageergebnissen. Den Download findet ihr hier.

Interessant fand ich vor allem folgenden Teil, der die derzeit größtenteils noch ziemlich üble User Experience des mobilen Internet-Zugangs thematisiert:

Aber auch mit der so genannten „Mobile User Experience“ sind viele Konsumenten unzufrieden – mit der Art und Weise also, wie sie den Umgang mit dem Internet per Handy empfinden: Gut 40 Prozent der Befragten stört es, dass die meisten Handys Seiten aus dem WWW zu klein und unübersichtlich darstellen. Damit geht einher: Mehr als jeder Fünfte findet es zu kompliziert, per Mobiltelefon auf Webseiten zu navigieren. Übrigens ein Phänomen in allen Altersgruppen – die Jüngeren sind nicht wesentlich abgehärteter, was die Mobile User Experience betrifft. Die Einschätzung, dass mobiles Internet noch sehr unter einem schlechten Nutzer-Erlebnis leidet, teilen übrigens auch viele Anbieter, wie eine Accenture-Untersuchung zeigt. Apples iPhone demonstriert, dass ein bequemerer Zugang die mobile Nutzung von Internetseiten nach oben treiben kann: Laut einer US-Erhebung verbringen iPhone-Nutzer zwölf Prozent der Handy-Nutzungszeit mit mobilem Surfen. Einer weiteren Untersuchung aus den USA zufolge verwenden 85 Prozent der iPhone-Besitzer den integrierten Webbrowser, gegenüber 13 Prozent aller Mobilfunk-Kunden. Die mobile Internetnutzung ihrer iPhone-Kunden übertreffe die Erwartungen bei weitem, verkündete die Deutsche Telekom Anfang 2008. (via Accenture)

Nicht nur der integrierte Webbrowser, sondern vereinfachter Zugang im Allgemeinen scheinen also auch aus Accenture-Sicht mal wieder ein Schlüssel zum Erfolg zu sein. Damit einher gehen bei Apple auch eine Reduzierung der Möglichkeiten des Nutzers zugunsten der Fokussierung des tatsächlich gewünschten Dienstes. Der Trend geht eindeutig zu Weiterentwicklungen in dieser Richtung, wie Bilder von Googles Android oder Symbian Add-Ons wie Nokias WidSets beweisen. Spannend, was sich hier in Zukunft tut, und ob Nokia, Google oder Apple am Ende den größten Teil vom Kuchen abbekommen…

android-phone.jpg

(Bild via googlesystem.blogspot.com)

-r-



Commoncraft: „Explanations in Plain English“ am Beispiel RSS
21.06.2008, 13:37
Gespeichert unter: Information, Netzkultur | Schlagworte: , , ,

Ich bin gerade auf ein kleines Zwei-Mann-Unternehmen gestoßen, das einmalige Erklärungen von Webtechnologien erstellt. Die Technik, die Commoncraft dabei nutzt, nennt sich Paperworks und ist um einiges einfacher und interessanter als vollgestopfte Powerpoints:

Our videos are short, simple and focused on making complex ideas easy to understand.  We use a whiteboard-and-paper format we call Paperworks that is designed to cut out the noise and stick to what matters. (via Commoncraft)

Klingt einfach, ist in der Praxis aber einfach nur richtig clever gemacht. Hier ist eines der ersten Videos, mit dem sogar meiner Oma die Funktionsweise von RSS klar werden dürfte. Inzwischen sind sie um einiges ausgereifter, aber auf jeden Fall immer super unterhaltsam! Mehr davon gibts im entsprechenden Channel auf Youtube.

-r-



Deloitte Technology Fast 50
14.05.2008, 22:20
Gespeichert unter: Wirtschaft | Schlagworte: , ,

Die Unternehmensberatung Deloitte veranstaltet seit 1995 jährlich einen Wettbewerb um die 50 wachstumsstärksten Unternehmen der Technologiebranche zu ermitteln. Diese Aktion hat sich inzwischen zu einer internationalen Initiative entwickelt. In Deutschland wird Technology Fast 50 in diesem Jahr zum sechsten Mal organisiert.

Wen das komplette Ranking von 2007 (oder die Teilnahmekriterien) interessieren sollte, dem sei die Deloitte-Internetpräsenz sehr ans Herz gelegt, auf der unter anderem auch eine vollständige Liste der Gewinner in Europa aus den vergangenen Jahren zu finden ist. Spannend ist vor allem, welche Bandbreite an Leistungen und Kompetenzen die Liste der Gewinner abdeckt.

Und hier noch ein kurzer Einblick in die deutschen Fast 50 von 2007:

Rang Unternehmen Sitz 5-Jahres- Wachstumsrate
1 komdat.com GmbH München 7785,25%
2 Bigpoint GmbH Hamburg 4589,01%
3 Zanox.de AG Berlin 3468,71%
4 CipSoft GmbH Regensburg 3064,24%
5 Q-Cells AG Thalheim 3018,90%


Einige einfache Gedanken über das Verhältnis von Gewinnausschüttungen und Managergehältern in der Autoindustrie
10.03.2008, 23:48
Gespeichert unter: Wirtschaft | Schlagworte: , , ,

Der deutschen Autoindustrie geht es gut. Nachdem die Daimler AG mal wieder einen Rekordgewinn verbuchen konnte, gibt es nun auch bei VW die größte Gewinnausschüttung seit Jahren.

Die Beschäftigten des Autobauers Volkswagen bekommen in diesem Jahr eine Rekord-Erfolgsbeteiligung. Wie das Unternehmen mitteilte, erhalten rund 86.000 Tarifmitarbeiter der Volkswagen AG jeweils 3700 Euro. Über die im Tarifvertrag vereinbarten zehn Prozent vom operativen Ergebnis der Marke Volkswagen hinaus habe der Konzernvorstand eine Sonderzahlung festgelegt. Für das Geschäftsjahr 2006 hatte die Erfolgsbeteiligung 2710 Euro betragen. (via zeit.de)

3700 Euro zusätzlich sind nicht wenig für den durschnittlichen Tarifarbeiter, würde ich sagen. Aus den Jahrbuch des Statistischen Bundesamtes gehen als durchschnittlicher Monatsverdienst für einen Angestellten im Fahrzeugbau (NACE 35) im Jahr 2006 rund 3490 Euro Brutto hervor. Die Ausschüttung sollte für viele also mehr als ein Bruttomonatslohn sein.

vw_fertigung

Daimler AG-Vorstandsvorsitzender Dieter Zetsche strich im Jahr 2007 8,55 Millionen Euro Jahresgehalt ein. VW-Vorstandsvositzender Winterkorn nagte 2006 im Vergleich zu ihm mit 3,14 Millionen Euro am Hungertuch. Übrigens: Die Altersversorgung von Zetsche wird wohl rund eine Millionen Euro im Jahr betragen.

VW kostet seine Gewinnausschüttung an die Tarifarbeiter 86000 x 3700 Euro, also mindestens 318,2 Millionen Euro, wobei ich steuerliche Belastungen außer Acht lasse. Das ist durchaus fair. Damit ließen sich rund 37 Daimler-Zetsches bezahlen. Zumindest ein Jahr lang. Das ist nicht schlecht. Wenn auch Zetsche eine Gewinnausschüttung von mehr als einem Monatsgehalt bekäme, würde das den Autokonzern einmalig rund 71 Tausend Euro zusätzlich kosten (diese Rechnung ist rein exemplarisch, tatsächlich wird sein Gehalt nämlich nicht pauschal, sondern mit einem prozentualen Anteil des Gewinnes aufgestockt). Würde er auf seine imaginäre einmalige Gewinnausschüttung verzichten, ließen sich stattdessen mehr als 20 Tarifarbeiter mit einer Summe in der Höhe der derzeitigen VW-Gewinnausschüttung beglücken. Würde er sich ein Jahr lang auf das 2006er Lohnniveau von Winterkorn erniedrigen lassen, ließen sich mit den überschüssigen Geldern einmalig rund 1389,2 weitere Gewinnausschüttungen von 3700 Euro finanzieren. Aber warum sollte er das tun. Tut ja nicht Not. Das ist schon ein toller Kerl, dieser Zetsche. Hat Schneid. Wie der Sarkozy.

zetsche_via_spiegel



WikiScanner: List anonymous wikipedia edits from interesting organizations

Und hier, bevor es ins Bett geht, noch ein richtig interessantes kleines Projekt von Virgil Griffith. Der Wikiscanner ordnet Änderungen und Beiträge im Netz anhand von IP-Adressen Firmennetzwerken zu. Beliebt scheint der Student deswegen nicht gerade zu sein:

Griffith … a „disruptive technologist,“ has caused public relations disasters… –Washington Post

Und ja: „disruptive“ ist eindeutig das richtige Wort! Selbst ich stelle mir nach fünf Minuten Herumspielen die Frage, warum ausgerechnet vom Netzwerk der Bundeswehr aus der Wikipediaartikel zu „Analfissur“ modifiziert wird. Zumindest werde ich in Zukunft ein wenig vorsichtiger sein, welche Seiten ich bei der Arbeit besuche…



„Gott sei Dank dürfen wir bei Ermittlungsersuchen Daten jetzt herausgeben“
27.02.2008, 21:17
Gespeichert unter: Information, Netzkultur, Wirtschaft | Schlagworte: , , , , ,

StudiVZ-Geschäftsführer Marcus Riecke spricht im SPIEGEL-ONLINE-Interview über Ermittleranfragen, Pornofilter, Profitablität durch die neuen AGB, Werbung und das neue StudiVZ-Netz für ältere Nutzer.

Studivzlogo



Unmistakeably German Citroen C5
27.02.2008, 19:14
Gespeichert unter: Information, Klischee, Wirtschaft | Schlagworte: , , , , ,

Und da wir ja schon die ganze Zeit bei deutsch-französischen Beziehungen sind, gibts heute von mir die Einweihung der neuen Kategorie „Klischee“ und den Post eines traumhaften Videos eines französischen Autoherstellers für den britischen Markt. Es ist schon eine geniale Vermarktungsidee, mit der Assoziation vermeintlich deutscher Qualität für eine Oberklasselimousine zu werben, an deren Anspruch ein Citroen in der öffentlichen Wahrnehmung bis vor einiger Zeit sicherlich nicht herankam.



Coca-Cola Konzessionäre
23.02.2008, 19:26
Gespeichert unter: Wirtschaft | Schlagworte: , ,

Jetzt mal ganz ehrlich: Wer von euch hat gewusst, dass Cola in Hildesheim hergestellt und abgefüllt wird?

neues-bild.jpg