ich habe aus dem Januar 2012 XML-Dump eine neue EPWING-Version erstellt.
Downloadbar hier:
http://www.megaupload.com/?d=5F2X92NB Das ganze ist als Beta anzusehen. Es gibt noch einige Dinge zu verbessern.
Die Version sollte aber voll funktionsfähig sein. Da ich in nächster Zeit
sehr beschäftigt bin, dachte ich, es ist besser die momentante Version
einfach hochzuladen - besser als keine.
Es wäre nett, wenn Interessierte das auf ihrerm Lieblingsreader ausprobieren
und Fehler hier berichten würden.
Falls die Version sich als halbwegs stabil herausstellen würde, wäre es toll
wenn man die Version (markiert als Beta) auf die Downloadseite stellen könnte -
diese Fileuploader sind ja eher eine Notlösung.
Die Umwandlungsskripte sind hier auf github:
https://github.com/irgendw3r/wadokuepwing (Code ist sehr ... kitanai, gomen ne
Known Bugs/todo - Liste
- für ca. 290 Unicodezeichen gibt es keine direkten ShiftJIS-Enstprechungen.
Es handelt sich dabei meist um nicht-joyou Kanji, einzelne Radikale und
CJK-unifizierte Zeichen. Zur Zeit steht im Wörterbuch anstatt eines solchen
Zeichens schlicht die unicode-Nummer in Hex. Dementsprechend sind solche Einträge
auch nicht indiziert. Für diese Zeichen müssen entweder Gaiji-Bitmaps
erstellt werden - dann sind sie aber ebenfalls nicht indizierbar. Oder so hoffe ich,
gibt es doch sinnvolle ShiftJIS-Pendants, die in den offizellen Empfehlungen
ftp://ftp.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/SHIFTJIS.TXT nicht aufgeführt sind. Leider ist das schlecht automatisierbar.
- Links innerhalb dieser EPWing-version funktionieren nicht. Man muss das Wort
auf das verlinkt wird manuell markieren und danach suchen
- Es werden derzeit nicht alle Informationen der Einträge verarbeitet. Das Parsen
des Wadoku XML ist schon recht komplex (und manchmal auch ein bisschen komisch:
z.B. ist mir nicht ganz klar wieso Einträge mit so leicht kryptischen
Infos wie △ etc. markiert werden statt XML-Tags zu verwenden.
Auch bin ich mir nicht sicher, wofür ' inmitten von Lesungen stehen... ich habe
dazu im Wiki nichts gefunden...)
Ich habe schlicht system's konverter für das MacDic benutzt.
Zuerst hatte ich ein xslt geschrieben... was aber einfach zu langsam war.
Ehrlich gesagt, scheint mir XSLT nach groben Überfliegen von
http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5273945 nicht ganz unproblematisch für Wadoku.
Summa sumarum, es gibt im Moment leider nur Hiragana, Kanji und Bedeutung.
- Formatierung der Einträge.
Wadoku leidet ja stark unter Komposita, imho sind es für eine EPWING-Version
fast schon zu viele. Man sieht das ja auch, wenn man auf der Hauptseite z.B.
nach 日本語 sucht und mehr als 40 Einträge bekommt. In anderen Wörterbüchern steht
noch nicht einmal 日本語 drin, sondern nur 日本 und 語.
Ich werde versuchen in Zukunft diese Komposita in einen Eintrag zu verfrachten.
Die Frage ist, ob man dann solche Komposita indiziert (um dann wieder so viele
Suchergebnisse zu haben) oder einfach nicht indiziert...