Rafazwonull vs Joe I/O


Modelling topical coherence of Blogs: News on my project
6.03.2009, 2:03
Gespeichert unter: Datamining, In eigener Sache, Information, Studium | Schlagworte: , , , ,

Again, I was pointed at something by a friend which I had not thought of before. Of course it had occurred to me that the issue I am covering with my thesis might be interested to the English-speaking world, but up until now I was quite unsure whether to change the way I write (and publicly and unchangebly leave my English traces in the never-forgetting web). However, the decision is taken and this will be my first English post.

Aquaint Blog crawler project

As I introduced before, I am currently writing my master thesis on an issue which may be drafted „Quality Models and Data Mining in Blogs“. I explained to the German speaking readers, that I was going to implement a webcrawler based on an implementation from the Hildesheim University AQUAINT project. The bot is to crawl through a controlled collection of Weblogs and record attributes (currently 150) which could be of interest for the statistical creation of binary, quality based model. Using the popular WEKA-toolset, I am confident that it will be possible to find signigicant patterns in the entity of the quality-labeled blogs. These patterns will help us discriminating from a random collection of much bigger size, equally „good“ (i.e. reliable, of high quality, high reputation, A-Listers) blogs from blogs which do not reach up to the standard of the controlled collection. However, this is not the only goal of collecting those features: we might find different structures in e.g. German and English blogs, or which is even more probable European and Asian blogs. The range of possibilites is huge once the crawler is running in a stable version and I am sure the features I am recording really express what I think they do.

The current implementation

Currently, the crawler is runs on a server and collects a number of random German blogs. I have run some trials with WEKA and it seems my idea is not all that dumb as I am able to successfully tell apart high-quality blogs from a random collection using the learned model using different algorithms (the weakest of which is Naive Bayes with an accuracy of 50%, the strongest being (currently) J48 with about 92%).

… and my current challenge: Coherence Analyis

What I am currently working at is a notion of cohesiveness of a blog, which I would like to explain in this post. What do I mean by „cohesiveness“? I would like to introduce this as a measure determining the topic variation of a certain blog. There may be blogs which cover e.g. the issues „dogs“ and „cats“, which occupy themselves with pets. On the other hand there may be bloggers writing on „cats“, „cars“, „computers“. As you can see, the range of different topics is bigger in the latter example. This means the blogger is less focussed on a specific range of topics.

How can we measure this cohesiveness and see how many topics the blogger is writing about? I consider the usage of tags and categories an important clue, as most bloggers use them to organize their post semantically. And what is more important, tags are even linked to a page which collects and displays all the posts marked with the specific tag. This page may be considered the blogger’s concept of the tag he uses. This is an important notion, as one blog might use the tag „cats“ to write on animals, while another one might use it as an acronym for „Computer Assisted Trading System„. So we can assume, the absolute meaning of the terms and their distane does not determine as good the actual topical difference of the blog as the blog-specific term-usage.

Cats != Cats.

If (Cats!=Cats)...

Now we can assume, that each of our tag-pages (or respectively categories page) which links to a same host page is representing one of the issues the blog is dealing with. How can we determine the similarity of the issues? One way, and this is the most obvious one, I guess, is to determine the similarity of each tag page as a basis to calculate the overall cohesiveness. This approach is not all new and it has been successfully used by a group of dutch scientist some time ago. I modified it to fit my needs and I would like to introduce some of the results here, including their shortcomings.

Jiyin He Coherence

There are a couple of possible approaches. The one I currently consider most applicable and quite sophisticated uses a package called simmetrics which allows the application of various string comparison algorithms, including some vector space models as cosine similarity and euclidean distance. It offers some other, more basic functionalities as qgram or dice, but I was primarily focussing on the vector space models.

Simmetrics Performance (by http://www.dcs.shef.ac.uk/~sam)

Simmetrics Performance (by http://www.dcs.shef.ac.uk/~sam)

One of my latest approaches is to use the cohesiveness notion introduced by the above mentioned group to calculate the similarity of all the links to the tag pages. The coherence ranges from 0 (meaning none) to 1 (meaning same documents). In my crawler, it is called „JiyinHeCoherencePerUrls“ after the person who introduced it (to me!). The pseudo-code is as follows:

For a given Blog, get  all the Tag-Pages.
Take the first Tag-Page and get all the text on the page;

For each of the Tag-Pages,
{
take the next Tag-Page and get all the text on the page;
Compare the two texts using the simmetrics package and save the result;
Cummulate the results of the comparisons;
Count how many comparisons we have done;
Set first Tag-Page to next Tag-Page.
}
Set the Coherence to the cumulated similarities per number of thecomparisons.

However, this way of measurement has some offsides which I can only partly compensate:

  • The simmetrics calculation using Vector space models is not stable. It sometimes just hangs up. I don’t know why. However, I am not sure if  using character-based models is an appropriate alternative.
  • As you see, I copy the text of the second page once. This is to avoid double server access to download the same page. We are opening up 10 pages per second if we do not reduce server strain, so this is why I set a delay to each page access which is between 4 seconds (trial) and 12 seconds (real crawling situation).
  • This method eats up a lot of resources. I reduced the size of the strings to compare using just the link labels of a page, which is an approach which had been favoured by a lot of search engines in former times (maybe up till now). This is due to the fact that usually the content of pages can be quite well determined if you take into account the links they use. However, I still have the problem with the Vector space calculation hang-up with some pages…

Simple Term-based coherence

Another notion of coherence I have been experimenting with is a more simple, but also more stable one. I have refrained from calculating the similarity, I have just defined the coherence from to pages as the number of same words on two pages per number of all words on the pages. Of course we only consider unique terms, ignore double occurences, space, punctuation etc. This leads to a really simple model, the pseudo code of which is following:

For a given Blog,
get  all the Tag-Pages.

Take the first Tag-Page and get all the text on the page;
Tokenize the content to words.

For each of the Tag-Pages,
{
take the next Tag-Page and get all the text on the page;
Tokenize the content to words.


For each of the words of  the first Tag page
For each of the words of the next Tag page
If word#1 equals word#2
increment nr of same words per url;

Division: Divide the nr of same words pre url per words first Tag page + words on next Tag page;
Set first Tag page text to next Tag page text
}

Calculate Standard Deviation, Mean and Median for all the Divisions done throughout the page comparisons.

This approach is much faster and more stable, however one can doubt (as Max usually does), the validity of the calculated feature.

After all, I am not sure which algorithm to use in the end. Actually I prefer the first one, but as the Vector based similarity approach is not working, I doubt whether the second one is worse than qGram analyis. After all we must not forget, that the feature I am discussing here will not be used as an isolated instance but is an attribute next to about 149 which are less complicated I feel. While you can surely argue the validity of the coherence measure, there is less uncertainty on attributes as the number of H1 tags or outlinks. But I need to say, this one has been most interesting so far.

Anyway, hints on how to use  to Vector based simmetrics here and why they hang up are highly appreciated, and so are ideas on which measure is the more appropriate one. I will happily provide the source code of the classes upon request. Usually I would publish it right away, but you see, I am still to be evaluated so I will better avoid bumbing into allegations I had commited plagiarism from an Internet source… ;) So, if you like it, there is more to come.

Good Night.

-r-



Julia Friedrichs im F.A.Z.-Streitgespräch
20.05.2008, 19:03
Gespeichert unter: Studium, Wirtschaft | Schlagworte: , , ,

Schon lange gab es keinen Eliten-Beitrag mehr von mir, heute wird das nachgeholt:

Die F.A.Z. führt ein Interview mit Eliten-Kritikerin (und meinem persönlichen Robin Hood) Julia Friedrichs und EBS-Alumnus Martin Hess und gibt beiden die Möglichkeit, zu Friedrichs Analysen in „Gestatten: Elite“ Stellung zu nehmen. Das Gespräch scheint zwar in geordneten Bahnen verlaufen zu sein, es wird jedoch deutlich, dass die beiden nicht allzu sehr auf einer Wellenlänge liegen…

-r-



Hildesheimer KuWis und die Groschenromane
23.04.2008, 23:05
Gespeichert unter: Studium | Schlagworte: , ,

Manchmal machen unsere Hildesheimer Kulturwissenschaftler echt irre Sachen. In letzter Zeit scheinen Sie aber noch viel irrere Sachen zu machen.

Einen Groschenroman zu schreiben, ist harte Arbeit. In Hildesheim haben es Studenten unter professioneller Anleitung gewagt. „Als zwei Herzen sich verloren“ schaffte es bis an den Kiosk.
(via Zeit.de)

kuwihille



Meine Armut kotzt mich an
16.04.2008, 22:21
Gespeichert unter: Studium | Schlagworte: , ,

Passt gut zum Thema, deshalb hier kurz einmal die andere Seite der Medaille auf Spiegel Online:

Clubs, Shoppen, Sonntagsbrunch: Das Studentenleben kann so schön sein. Wenn das Geld reicht. Trotz zweier Jobs kann die Berliner Studentin Julia, 25, nicht mithalten. Ihr Kontostand sagt Njet – und bei Unterschichtenwitzen lacht sie nur gequält mit. Ein zorniger Zwischenruf. (via Spiegel Online)



Die Zwei von der Privatuni
12.04.2008, 9:38
Gespeichert unter: Studium | Schlagworte: , , , ,

Gestern Abend ist mir und Marcel etwas seltsames passiert. Gerade sprachen wir noch über das neue Buch von J. Friedrichs (ich weiß nicht, woran es liegt, aber für jemanden, der dann doch aus dem relativ strukturschwächeren Niedersachsen kommt, scheint das in Stuttgart einfach ein Thema zu sein) und fanden einen netten Platz in einer völlig überfüllten Bar, da setzten sich auch schon zwei Mädchen zu uns, die genauso nach einem Tisch suchten und sich einfach die zwei freien Stühle bei uns am Tisch schnappten und zwei Cocktails bestellten. Damit sollte unser Abend dann auch noch um ein ganzes Stück interessanter werden…

Die beiden waren jünger als wir und hatten an sich auch nicht das Bedürfnis, sich uns mitzuteilen, aber als sich die Möglichkeit ergab, fanden wir dann auch heraus, dass sie im zweiten Semester Internationales Management an der AIM in Stuttgart studierten. Das fanden wir dann umso spannender.

Auf die Frage, was sie denn damit machen wollten, antworteten sie (beide), sie wüssten es noch nicht, aber irgendetwas mit Führungsposition und Wirtschaft… Gut, dachten wir uns. Wer will das nicht.

Und warum sie sich denn für einen Internationalen Studiengang entschieden hätten?

„Weil ich irgendetwas mit anderen Ländern und Kulturen machen wollte.“
„Wo wart ihr denn schon mal?“
„Ich war ein Jahr in New York, gleich nach dem Abi!“

Marcel und ich kuckten uns an, und ich hatte kurz den Eindruck, dass er mich davon abhalten wollte, selbst zu prüfen, was ich über Elite gelesen hatte, dann machte er aber auch schnell selbst mit.

„Ihr sprecht doch auch sicherlich viele Sprachen, wenn das so international ist?“

Die beiden kicherten ein bisschen, und meinten, dass sie in der Schule Glück gehabt hätten, weil Sie mit dem Direktor dann doch irgendwie hätten ausmachen können, dass Französisch überbewertet sei und abgewählt werden könne. Mit der obligatorischen zweiten Fremdsprache sah es also nicht so gut aus. War das nicht Voraussetzung für die Allgemeine Hochschulreife? Vor allem in Baden-Württemberg?

Und wie das denn mit den Praktika bei Ihnen sei, fragte Marcel.

„Eigentlich müssen wir ein mindestens zwei monatiges Praktikum machen, aber unsere Semesterferien sind so kurz, da fahr ich, glaub ich, lieber in den Urlaub. Nichts besonderes, einfach nur Strand. Thailand oder Spanien.“

Thailand. Aha. Ich dachte mir, dass es auch an der Ostsee nette Sandstrände gibt, und dass ich die auch mal gerne sehen würde. Marcel ging es ähnlich.

„Was kostet denn eigentlich eure Uni im Semester?“

Die beiden drucksten ein wenig rum, dann meinte ich, dass sie sich mal nicht so anstellen sollten, ich könne mir ja schon denken, dass sie es nicht selber zahlten. Die beiden wussten es aber wirklich nicht. Sie hatten keinen blassen Schimmer, was Mama und Papa für sie monatlich abdrücken.

Dann fuhr auch schon meine S-Bahn und wir mussten gehen. Ich habe mich schon lange nicht mehr so gut unterhalten gefühlt. Ich frage mich, ob und zu welcher Elite die beiden zu zählen wären. Zur Bildungselite eher nicht. Ihr Lebenslauf wird sicher was anderes sagen.

Das Gespräch habe ich übrigens sinngemäß wiedergegeben. Ich will niemandem auf die Füße treten, aber so war es wirklich. War ein wenig gemein, die beiden so auflaufen zu lassen, aber sie haben es wirklich nicht durchblickt. Sogesehen, haben wir ihnen bestimmt nicht wehgetan.

Ich weiß nicht mehr, wie ich im zweiten Semester war. Ich weiß nur, dass ich mir über mein Geld schon Gedanken gemacht habe. Für gute Bildung zu zahlen hat sicherlich seine Berechtigung, sie aber einfach als gegeben zu akzeptieren, ohne sich über ihre Kosten im Klaren zu sein, treibt mich zur Weißglut.

Um 02:34 habe ich dann noch eine Mail von Marcel bekommen (der jetzt auch die übermäßige Beschäftigung mit diesem Thema versteht), die mich freundlich auf die Kosten eines Studiums an der AIM hinwiesen, und ich möchte sie hier kurz vorbehaltlich Marcels Einspruch einfügen (steht übrigens auch auf der Seite der AIM, nur falls jemand mit dem Gedanken spielt, sich dort einzuschreiben) :

Studiengebühren

Die Studiengebühren betragen insgesamt für drei Jahre 21 780 € und können in monatlichen Raten von 36 x 605 € entrichtet werden. (also grob 4000 euro dauerauftrag vom Elternkonto pro Semester + Wohnungsgeld u. Taschengeld würde ich schätzen > runde 5000)

Die Studiengebühren beinhalten die Unterrichtsgebühren für drei Jahre, die Unterrichtsgebühren für den Auslandsaufenthalt in England zur Vorbereitung des Bachelor-Abschlusses an der University of Northumbria at Newcastle, die Unterrichtsgebühren für den zweimonatigen Aufenthalt an einem Sprachenkolleg in einem Küstenort in Spanien. Nicht eingeschlossen sind die Reise-, Unterkunfts- und Verpflegungskosten während der Auslandsaufenthalte. Bei Abschluss des Studienvertrages ist eine Einschreibegebühr in Höhe von 100 € fällig. Für Lehrbücher und andere Lernmittel ist für die gesamte Studienzeit mit einem Aufwand von ca. 1000 € zu rechnen.

Die Semesterprüfungsgebühren betragen je Semester 45 € (einschließlich der Gebühren für das Semester-Ticket); die Abschlussprüfungsgebühren im 6. Semester betragen 450 €.



Elite-Diskussion. Erneut.
9.04.2008, 21:18
Gespeichert unter: Studium, Wirtschaft | Schlagworte: , , , ,

Julia Friedrichs verfolgt mich. Vielleicht verfolgt Sie euch ja auch?

Auch auf die Gefahr hin, mich zu wiederholen, poste ich heute wieder einen kleinen Beitrag über Soziale Ungerechtigkeit und meinen persönlichen, weiblichen Robin Hood. Vielleicht fallen mir die Artikel dadurch eher auf, dass ich mich schon länger über Oberschichten-Klüngelbildung aufrege (auch, wenn ich es nicht schaffe, das so kreativ und reflektiert zu verpacken wie sie), oder weil an meiner Uni schon diejenigen zur „Elite“ gehören, die einen Wagen besitzen, der jünger als sechs Jahre ist. Zumindest nagt das Thema derzeit an mir.

In der aktuellen Galore (die hier in Form einer freundlichen Leihgabe auf meinem Schreibtisch liegt – Danke!), äußert sich Julia Friedrichs zu Ihrem Buch, zu sozialer Ungerechtigkeit und dem relativ schwierigeren Aufstieg derer, die nicht mit dem Goldenen Löffel im Mund geboren sind. Wie gewoht, ein tolles Interview mit spannenden Einblicken in die „Parallelwelt“ von Salem, McK und Co.



Aus gutem Haus
7.04.2008, 15:41
Gespeichert unter: Studium | Schlagworte: , ,

Ohne Worte.
via Zeit.de



Julia Friedrichs und die Diskussion über Eliten
1.04.2008, 18:16
Gespeichert unter: Studium, Wirtschaft | Schlagworte: , , ,

Vielleicht erinnert sich noch der Eine oder Andere von euch an die „Legende“ von der jungen Journalistin, die durch alle McKinsey-Assesments gerauscht ist, um an Ende ein 65000 Euro-Jahresgehalt und die feierliche Aufnahme in die deutsche „Elite“ auszuschlagen?

Diese junge Journalistin heißt Julia Friedrichs und hat jüngst das Thema des Elitenklüngels mit ihrem Buch Gestatten: Elite wieder aufgenommen. Der Spiegel spricht mit ihr über Minderleister, die Rolle von Eliten-Ausbildung, und die Eliten von morgen.



BBC-Beitrag über das französische Bildungssystem
14.03.2008, 17:41
Gespeichert unter: Studium, Wirtschaft | Schlagworte: ,