GeoWiki

Interfacedesign
1.165 Advanced Media
Wintersemester 2009/2010

Extrahieren und visualisieren geographischer Orte aus Wikipedia-Artikeln um relevante tempospatielle Muster erkennbar zu machen.

Dieser Workspace nimmt zur Zeit
keine neuen Mitglieder an.

Mitgliederlisten und eventuell vorhandene Materialien sind nur für eingeloggte Nutzer zugänglich.

placemarker Bugs

ok, placemarker oder yql anfrage kommen definitiv mit einigen wiki artikeln nicht klar. Viele Städe zB. Berlin,Dortmund,Essen, Wuppertal,Passau liefern keine Orte zurück wobei zB. die englische Seite für Passau Ergebnisse liefert, die englische für Berlin aber wieder nicht. hat es vielleicht mit dem documentype:html/text zutun?
bzw. was wäre die geschickteste variante es via xpath an placemaker zu parsen, vorrausgesetzt die api, kommt einfach teilweise mit der seitenstruktur nicht klar...
und das australien, finnland problem existiert halt weiterhin.

10. Januar 2010 um 02:55 Uhr
MT

Ich hab im SVN grad einen neuen PlaceExtractor hinzugefügt (und das ein wenig umgebaut), der jetzt direkt die Placemaker API nutzt, und nicht via YQL geht. Das hat den Vorteil, dass wir nun auch POST (statt nur GET)-Anfragen machen können, und somit längere Texte zum Extrahieren hinschicken können.

Leider nur beschränkt Placemaker (ob direkt oder via YQL) die Texte auf 50kB. Dies ist offenbar auch der Grund, warum die von dir genannten Beispiele keine Ergebnisse liefern.

Ich werde gleich noch ein Beispiel committen. Dies nur schonmal als Info für die Leute, die derzeit dran arbeiten, ein SVN-Update zu machen.

10. Januar 2010 um 13:50 Uhr

TN

ai... dass kann sein, denn gerade bei längeren texten schien das problem aufzutauchen!

10. Januar 2010 um 14:01 Uhr

MT

Jetzt gibt es eine MultipleContentGeoWikiApp, die alle HTML-Paragraphen (< p >) im Artikel an Placemaker gibt, und deren extrahierten Plätze zusammenfasst. Damit kann man nun etwa auch Orte des "Passau"-Artikels lesen.

Dies ist recht roh. Hier müssten natürlich noch die Dupletten rausgenommen werden (z.B. indem man statt eine Liste ein Set nutzt), und vor allem der XPath angepasst werden, so dass nicht einfach alle p's, sondern etwa alle Abschnitte eingelesen werden können.

Ich bin jetzt erstmal weg, und versuch, da nachher nochmal drüber zu schauen.

10. Januar 2010 um 14:20 Uhr

TN

Well, es scheint in XPath nicht direkt möglich zu sein, die Absätze aus Wikipedia-Artikeln sauber auszulesen.
Leider ist die Struktur bei den Artikeln ja folgendermaßen:

<h2>Leben</h2>
<p>Er wurde geboren...</p>
<p>Und ging dann...</p>
<h2>Beruf</h2>
<p>Nach seiner Ausbildung...</p>

Mit dem XPath

//div[@id="bodyContent"]/*[preceding::h2 and following::h2 and not(local-name()='h2')]

erhält man alle Nodes zwischen zwei Headlines (<h2>), aber eben nicht zusammengefasst. Man muss also
in jedem Fall in Java die einzeln auslesen und jeweils neu an Placemaker schicken -
so, wie ich das bereits in MultipleContentGeoWikiApp gemacht hatte. Tja, naja...

10. Januar 2010 um 20:31 Uhr

TN

pläne.

ich werde nach wie vor das verlinkte seiten thema focussieren, und mich wohl mit lino zusammentun.

einen genauen plan, sprich skizzen gibt es nicht, sondern erstmal eine reihe von experimenten auch in die dritte dimension, um zu schauen, was man an mustern erkennen kann um diese dann im nächsten schritt noch stärker herauszuarbeiten.

das bild oben ist wiki/Kongo die Rote line ist der "Leitartikel"

hat sich beim letzten Treffen eigentlich noch etwas zum Placemarker Australien/Finnland Bug getan?

10. Januar 2010 um 00:34 Uhr
MT

Nächstes Treffen: Mo, 18.01.

Und wieder hat die Gemeinschaft entschieden:

Montag, 18.01. von 10:00 - 13:00

Diesmal wieder im IDL.

(Wenn mehrere von euch nicht an der FH sind, können wir das auch wieder in Berlin machen, wenn sich nochmal ein freundlicher Host bereit findet. Bitte kommentieren.)

9. Januar 2010 um 16:14 Uhr
TN

Sorry! Ich hab das mit bis Freitag irgendwie nicht mitbekommen (nachgetragen). Montags geht bei mir nicht, da hab ich nenn Kurs.

9. Januar 2010 um 16:37 Uhr

ME

Ok. Vielleicht schaffst du es ja, für eine halbe Stunde ins IDL rüber zu kommen.

Ansonsten bin ich Montag auch nach 13 Uhr in Potsdam. Dann könntest du ja später vorbei kommen.

9. Januar 2010 um 16:56 Uhr

TN

hab um 14Uhr Kurs und komm dann früher nach Potsdam, von daher fänd ich das IDL gut.

9. Januar 2010 um 17:17 Uhr

LG

bin auch im LAB am start.

9. Januar 2010 um 21:14 Uhr

ff

Ja, IDL ist für mich auch gut.

9. Januar 2010 um 22:03 Uhr

LT

farbe

hab das ganze mal mit farben ausprobiert.
zip: "spinnennetz_farbig".

was geht sonst so bei euch?

grüße vom code-dilletant.

8. Januar 2010 um 20:24 Uhr
ff

Spinnweben

bei den materialen hab ich ein zip (spinnweben) hochgeladen, das erste experimente mit dieser blubberartigen verbindung der einzelnen orte zeigt.

gut daran ist:

die flächen, an denen nichts passiert (z.b. atlantik) werden nicht gefüllt.
durch die spinnwebenartigen verbindungen können große entfernungen gut dargestellt werden, da je weiter sich zwei orte voneinander befinden, die "spinnwebe" zum mittelpunkt immer dünner wird. bei sich naheliegenden orten sind die verbindungen dagegen sehr flächig.
in diesem fall entsteht zwischen europa und nordamerika eine "spinnnwebenmasse" die ,finde ich, gut visualisiert, dass die bauhausmeister viel auf beiden kontinenten gearbeitet haben und dazu auch immer hin und her gereist sind.
gut ist, dass aber durch die verbindungen keine richtung festgelegt wird, von wo nach wo sie sich bewegt haben.
würde man die orte nur mit linien verbinden bekäme man schnell den eindruck, dass nur ein einziger transfer visualisiert wird.
insgesamt hängt alles irgendwie zusammen und trifft sich aber überwiegend in deutschland wieder.

probleme:

bei vielen übereinanderlagerungen kann es schnell ziemlich verwirrend werden, denke ich.
liest man artikel aus, bei denen sich die orte alle sehr nah beieinander befinden, kann man die einzelnen verbindungen nicht mehr erkennen, bzw voneinander unterscheiden.

der algorhytmus könnte deswegen schwierig zu schreiben sein, da es sehr viele verschiedenen verbindungsmöglichkeiten gibt, die immer eine andere form annehmen.

alternativ könnte man natürlich auch die wichtigsten orte des textes mit größeren grauen kreisen darstellen, was wieder zu einer anderen gesamtdarstellung führt. (letzte seite des PDFs)

was findet ihr so?

7. Januar 2010 um 20:53 Uhr
ff

versuchs mal mit farbe. ich glaube da bekommt man nen besseren überblick. jeder artikel ne andere.

7. Januar 2010 um 23:07 Uhr

AS

Gefällt mir gut, der Ansatz. Durch diese webigen, gezogenen Verbindungen erhält das einen interessanten organischen Charakter, wodurch eine gewisse Ungenauigkeit vermittelt wird. Daher finde ich es auch nicht besonders problematisch, dass die Verbindungen künstlich sind und nicht etwa auf einer zeitlichen Reihenfolge basieren.

Um die verschiedenen Artikel besser voneinander abzutrennen und unterscheiden zu können, könnten Farben tatsächlich helfen. Dein obiges Farbexperiment allerdings finde ich nicht so gelungen, was evtl. an den gewählten Farben liegt. Zudem solltest du mal probieren keine Satellitenkarte zu verwenden. Im SVN unter data habe ich grad eine einfache Länderkarte reingestellt.

Statt Farben könnte auch eine Interaktion helfen. Wenn der Nutzer die verschiedenen Artikel (z.B. über eine dynamische Legende) auswählen, und sich so die ihn interessierenden "Spinnennetze" anschauen könnte, wäre dies möglicherweise auch vielversprechend.

9. Januar 2010 um 16:13 Uhr

TN

ok, das mit den farben war nur so mal ausprobiert. die sind schon komisch, das ist mir klar. wenn es aber mehr artikel werden, müssten noch viel mehr verschiedene farben ins spiel kommen, was ein problem werden könnte.

interaktiv würde sich anbieten, ich finde aber auch dieses kaugummiartige ineinandergeflochtene konstrukt ziemlich interessant, weil man da wichtige orte gut erkennen kann und so eine fusion der artikel entsteht.
finktioniert halt wahrscheinlich nur bei artikel, die irgendwas miteinander zu tun haben.

ich find allgemein eine farbe besser, mal sehn, was mir noch einfällt.

chea.

9. Januar 2010 um 21:13 Uhr

ff