Wadoku.de Forum
  [Search] Search   [Recent Topics] Recent Topics   [Hottest Topics] Hottest Topics  
[Register] Register /  [Login] Login 
Messages posted by: irgendwer
Forum Index » Profile for irgendwer » Messages posted by irgendwer
Message
Bei der Eingabe von Daten in der deutschen Übersetzung ist man ja jetzt schon recht flexibel; siehe die Eingabebox Deutsch auf http://www.wadoku.de/entry/new

Reichen die technischen Möglichkeiten der Ausgestaltung von Beiträgen wirklich nicht aus? Ich glaube nicht, daß es momentan nicht schon möglich wäre, so etwas wie eine Art "Infobox" zu wichtigen Einträgen schlicht in der deutschen Übersetzung zu erstellen.

Ich bin bei so etwas deswegen skeptisch, weil ich der festen Überzeugung bin, daß ein Problem bei wadoku.de nicht gerade zu wenig Flexibilität (im Sinne von Struktur) von Übersetzungen da ist, sondern im Gegenteil zu viel Flexibilität und zu wenig Struktur. Das liegt sicher auch an der gewachsenen Datenbasis, und wie diese historisch entstanden ist.

Ich bin deswegen skeptisch, weil eine Art Wiki, mal mit Ausnahme des Revision-logs, eher weniger Struktur bringt. Solche Wiki-Daten strukturiert in andere Formate zu bringen (Apple Dictionary, EPWing, Edict) ist sicher die Hölle. Gerade da spielt wadoku aber seine Stärken aus, ist es doch nicht nur auf wadoku.de zu finden, sondern auch in Rikai-Chan, in diversen Formaten auf Smartphones etc. etc.

Je mehr Struktur den Nutzern schon bei der Eingabe der Daten abverlangt wird, desto besser (wenn z.b. bei der Eingabemaske schon die XML-Struktur der Daten in einem komplexeren Forma abgefragt würde, würden vielleicht solche "Unfälle" wie bei 掛かる vermieden). Wobei das Problem natürlich nicht die Neueinträge sind, sondern eher der riesige existierende Datenbestand.

Kurzum: Das Problem liegt imho eindeutig in der Art, wie die Daten mehr oder weniger unstrukturiert gewachsen sind, und an der Qualität der Einträge. Das neue XML-Format[1] ist ein sehr großer Fortschritt, und bietet eigentlich genug Struktur was die Daten angeht (könnte aber sicherlich was <sense> angeht, noch verbessert werden, siehe auch oben meine Vorschläge, bzw. Dans Kommentar bzgl. neuer Relationen in der DB). Letztendlich liegt es aber an den Nutzern, diese Struktur auch durch verbesserte Inhalte zu nutzen.

Und das ist natürlich viel mühseliger und aufwendiger, als an der Technik 'rumzuschrauben.

[1] wobei ich persönlich ja menschenlesbare, lex/yacc-parsbare Textformate bevorzuge
Dan wrote:Aber zumindest die Minimierung der Einträge halte ich nicht für sinnvoll, obwohl natürlich einige Einträge sehr "geschwätzig" sind und durchaus konziser gefasst sein könnten. Diese Kurzform der Einträge wären etwas für ein kleines bis mittleres Wörterbuch, aber ich denke darüber ist Wadoku schon hinaus.


Ich verstehe, daß Wadoku diesen Anspruch hat. Und mein Vorschlag war diesbezüglich vielleicht auch ein bisschen extrem. Ich wollte nur darauf hinweisen, daß Masse nicht unbedingt immer Klasse ist.

Deutsche Synonyme bei _gleicher_ Bedeutung sind auch sicherlich nicht das Hauptproblem. Sondern eben die Abgrenzung und Einordnung bei _verschiedenen_ Bedeutungen bzw. Bedeutungskontexten.
Dan wrote:Vielleicht hast du ja dazu weitere Vorschläge?


Intuitiv würde ich sagen, daß ähnlich wie im Konsaizu eine kürzere Einordnung als die sehr umfangreichen Gebrauchsbeispielen (das sind ja oft ganze Sätze) notwendig sind. Nur mal so gedacht:

- gibt es nur eine Bedeutung, so sollte imho nur ein (das Gebräuchlichste) Wort dort stehen. Imho nach Möglichkeit möglichst wenig deutsche Synonyme (in der Anzahl bewusst stark begrenzt). Das Wadoku ist ja schließlich kein deutscher Thesaurus.
- gibt es mehrere Bedeutungen, so sollte jede Bedeutung _entweder_ durch einen Tag gekennzeichnet sein, _oder_ durch ein japanisches Synonym. Mit Tags meine ich in Wörterbüchern übliche Einordnungen, wie {med.}, {jur.}, {ökon.}, {figurativ} etc. Also z.B. "Depression", einmal die Einordnung als ein spezieller ökonomischer Sachverhalt, zum anderen die medizinische Bedeutung. Leider fällt mir jetzt spontan kein gutes japanisches Beispiel ein.
Im Großteil aller Fälle wird eine solche Unterscheidung aber nicht möglich sein. Dann wäre glaube ich, ein japanisches Synonym notwendig.
- Die Gebrauchsbeispiele sollten imho eher zusätzliche Hilfen, aber nicht notwendige Erklärungen sein.

Also um mal zwei kurze japanische Beispiele zu geben:

感覚[かんかく]
[1] Sinneswahrnehmung
[2] {fig.} Empfindung


感じ[かんじ]
[1] (感覚) Gefühl
[2] (印象) Eindruck

Mir ist völlig bewusst, dass das Hinzufügen und Finden von geeigneten japanischen Synonymen nicht trivial ist.
Bei durchgehen und konvertieren einiger Datensätze (ich arbeite an mehreren Dingen, u.a. an einer neuen EPWING-Version) fiel mir folgendes auf:

Bei einigen Datensätzen ist die Nutzbarkeit für Japaner extrem fraglich (welches deutsche Wort ist jetzt "richtig"?). Ein Extrembeispiel (natürlich sind nicht alle so):

Suche nach "掛かる"

Es gibt 36 Bedeutungseinträge:
1 hängen; herabhängen. 2 überhängen; hinüberragen. 3 in der Luft hängen; in der Luft stehen. 4 aufs Feuer stellen. 5 wiegen. 6 sich anlehnen; sich stützen. 7 gefangen werden; hängen bleiben. 8 Sorgen machen. 9 abschließen. 10 bedeckt werden; ausgesetzt werden. 11 begießen. 12 behelligen; belästigen; auferlegt werden. 13 wecken (einen Verdacht, Hoffnung). 14 ansprechen. 15 einen Fluch auferlegen. 16 hinzufügen. 17 brauchen; in Anspruch nehmen; kosten; erfordern. 18 auferlegt bekommen. 19 gebaut werden (eine Brücke); gezogen werden (eine Leitung). 20 angerufen werden. 21 berühren; anfassen. 22 behandelt werden; untersucht werden; einen Arzt konsultieren; sich an einen Arzt wenden. 23 treffen; sehen. 24 starten; anfangen; beginnen. 25 anlangen. 26 dauern; kosten. 27 erreichen. 28 in Beziehung stehen. 29 sich beteiligen. 30 errichten. 31 überlassen. 32 nötig sein (Arbeit, Geld). 33 sich entgegenstellen; angreifen; herfallen. 34 sich paaren. 35 Arbeit beginnen. 36 treffen; begegnen.

Ohne Verwendungsbeispiel, weitere Erklärungen und Einordnungen ist das ziemlich nutzlos für einen nicht-deutschen Muttersprachler (und sogar für einen Deutschen bedeutet das viel selbstständige Kontextanalyse). Der Eintrag auf Wadoku gibt zahlreiche Gebrauchsbeispiele, was sicherlich weiterhilft. Trotzdem unten mal zum Vergleich der Eintrag aus dem コンサイズ和独. Der Unterschied im Wesentlichen: Jede Übersetzung nach Deutsch wird durch ein japanisches Wort eingeordnet. Zu manchen Einordnungen gibt es weitere Beispielsätze.

1) Gibt es ein Bewusstsein für dieses Problem?
2) Gibt es Überlegungen das Wadoku dahingehend zu verbessern? [Ich habe dazu in der Roadmap und im Wiki nichts gefunden, aber dort werden ja auch tendenziell eher technische Dinge besprochen]
3) Gibt es Überlegungen, wie man eine solche Unterscheidung am Besten formalisiert (also eine standardisierte Form eines Eintrags?)
4) Und natürlich am Wichtigsten: Was können wir Nutzer tun/Welchen Beitrag könnten wir leisten?


[Eintrag aus dem コンサイズ和独]

かかる 懸(掛)かる
1 [ぶらさがる] hängen* (hangen*) __an3__; aufgehängt sein.
2 [覆いかかっている] über|hängen*; hinüber|ragen __über4__.
3 [水などが] spritzen __auf4__;
¶雨がかかるdem Regen ausgesetzt sein
¶塵がかかるbestaubt werden.
4 [負担・税が] jm auferlegt (aufgebürdet) werden; jm zur Last fallen* [s]; besteuert werden __税が__;
¶税のかかるsteuer:pflichtig (zoll-); zu versteuernd (verzollend).
5 [依存する・養われる] ab|hängen __von3__; abhängig sein __von3__; angewiesen sein __auf4__.
6 [要する] brauchen4; in 4Anspruch nehmen*4; kosten4; erfordern4; nötig haben4;
¶金がかかるEs kostet viel.
¶時間(手間)がかかるEs erfordert viel Zeit (viel Mühe).
¶三時間かかるEs dauert 3 Stunden.∥Es nimmt 3 Stunden in Anspruch.
7 [着手] an|fangen*; beginnen*; 4sich an 4et machen; in die Hand nehmen*4; Hand legen __an4__;[仕事に]  an die Arbeit gehen* [s]; die Arbeit auf|nehmen*;
¶…しかかる,…しかかっているim Begriff (nahe daran) sein
¶家が今にも倒れかかっているDas Haus will jeden Augenblick zusammenstürzen.
¶彼は死にかかっているEr liegt im Sterben.
8 [芝居・サーカスなど] laufen* [s]; es gibt4; aufgeführt (gezeigt) werden;
¶そのオペラはいつからかかりますかWann wird die Oper aufgeführt?
9 [架される] gebaut (geschlagen) werden;
¶ここに橋がかかるHier wird eine Brücke geschlagen.
¶この川には橋が二つかかっているZwei Brücken führen über diesen Fluss.
10 [目方がある] wiegen*.
11 [呼ばれる] 
¶口がかかるjm eine Stelle angeboten werden
¶声がかかるangerufen werden[電話] 
¶山本さんから電話がかかりましたHerr Yamamoto will Sie am Telefon sprechen.
12 [対抗する] 4sich entgegen|stellen; kämpfen __gegen4__;
¶彼には二人かからないと負けるZwei müssen gegen ihn kämpfen, sonst verliert man den Wettkampf.
13 [攻撃する] an|greifen*4; her|fallen*__über4__;
¶敵にかかるden Feind an|greifen*; über den Feind her|fallen*
¶打ってかかるlos|gehen* [s] __auf jn__
¶さあ,かかってこいLos! Komm heran!
14 [さしかかる] 
¶印刷にかかっているim Druck sein
¶山道にかかるan einen Berg kommen* [s].
15 [医者に] 4sich an einen Arzt wenden*; einen Arzt konsultieren.
16 [係わる] 
⇒かかわる
∥お目にかかるdas Vergnügen haben, jn zu sehen (js4Bekanntschaft zu machen)
¶気にかかるjn beunruhigen; jm große Sorge machen (verursachen; bereiten); 4sich kümmern __um4__
¶鼻にかかるdurch die Nase sprechen*; näseln.
DigiFox wrote:Zu Wadoku Offline kannst dir die EPWING Version runterladen
es gibt zwar ein großes Deutsch-Japanisch Wörterbuch, ...


Das liest sich ein wenig, als gäbe es das als EPWING - Version? Um welches Wörterbuch handelt es sich? Afaik gibt es als EPWING Version einzig das von Crown, nur erhältlich in Japan.
Das XSLT funktionierte auf einem kleinen Sample von 1000 Einträgen. Für das gesamte Wadoku ist noch viel Nacharbeit nötig, denn EBStudio[1] stürzt bei nicht-validem Input gern ohne jegliche Fehlermeldung ab. Ohne hinreichend schnellen XSLT-Prozessor ist es unmöglich für mich, zu testen, was überhaput fehlerhaft ist. 300 Pfund für Saxon-EE ist für mich unbezahlbar.

Eine mögliche Alternative wäre STX, damit habe ich mir aber noch nicht beschäftigt.

XSLT mag sehr praktische für den Server sein, und auch um damit automatisiert dann halbjährlich Konvertierungen durchzuführen. Aber
1.) es wird für EPWING sowieso immer viel händische Nacharbeit nötig sein (wg. Unicode <-> SJIS),
2.) XSLT ist wg. der Performanceprobleme für irgendwelche Third-Party Entwickler unmöglich zu benutzen. Falls jemand einen freien + schnellen XSLT-Prozessor kennt, her damit!

Ich werde mal schauen, was sich machen läßt.

Dan wrote:
Was die Komposita angeht, sehe ich da kein Problem, Kenkyushas 新和英大辞典 ist noch umfangreicher.


EBPocket blockiert teilweise >10s bei manchen Anfragen (HTC Magic).

--
[1] ist alternativlos, denn es hilft beim automatischen Erstellen von Gaiji; wesentlich einfacher als FreePWING, und xml2eb aus dem EB4J erzeugt leider (defekte?) Wörterbücher, die manche Reader, z.B. EBWin, nicht lesen können...
ich habe aus dem Januar 2012 XML-Dump eine neue EPWING-Version erstellt.

Downloadbar hier:

http://www.megaupload.com/?d=5F2X92NB

Das ganze ist als Beta anzusehen. Es gibt noch einige Dinge zu verbessern.
Die Version sollte aber voll funktionsfähig sein. Da ich in nächster Zeit
sehr beschäftigt bin, dachte ich, es ist besser die momentante Version
einfach hochzuladen - besser als keine.

Es wäre nett, wenn Interessierte das auf ihrerm Lieblingsreader ausprobieren
und Fehler hier berichten würden.

Falls die Version sich als halbwegs stabil herausstellen würde, wäre es toll
wenn man die Version (markiert als Beta) auf die Downloadseite stellen könnte -
diese Fileuploader sind ja eher eine Notlösung.

Die Umwandlungsskripte sind hier auf github:

https://github.com/irgendw3r/wadokuepwing

(Code ist sehr ... kitanai, gomen ne


Known Bugs/todo - Liste

- für ca. 290 Unicodezeichen gibt es keine direkten ShiftJIS-Enstprechungen.
Es handelt sich dabei meist um nicht-joyou Kanji, einzelne Radikale und
CJK-unifizierte Zeichen. Zur Zeit steht im Wörterbuch anstatt eines solchen
Zeichens schlicht die unicode-Nummer in Hex. Dementsprechend sind solche Einträge
auch nicht indiziert. Für diese Zeichen müssen entweder Gaiji-Bitmaps
erstellt werden - dann sind sie aber ebenfalls nicht indizierbar. Oder so hoffe ich,
gibt es doch sinnvolle ShiftJIS-Pendants, die in den offizellen Empfehlungen
ftp://ftp.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/SHIFTJIS.TXT
nicht aufgeführt sind. Leider ist das schlecht automatisierbar.

- Links innerhalb dieser EPWing-version funktionieren nicht. Man muss das Wort
auf das verlinkt wird manuell markieren und danach suchen

- Es werden derzeit nicht alle Informationen der Einträge verarbeitet. Das Parsen
des Wadoku XML ist schon recht komplex (und manchmal auch ein bisschen komisch:
z.B. ist mir nicht ganz klar wieso Einträge mit so leicht kryptischen
Infos wie △ etc. markiert werden statt XML-Tags zu verwenden.
Auch bin ich mir nicht sicher, wofür ' inmitten von Lesungen stehen... ich habe
dazu im Wiki nichts gefunden...)
Ich habe schlicht system's konverter für das MacDic benutzt.
Zuerst hatte ich ein xslt geschrieben... was aber einfach zu langsam war.
Ehrlich gesagt, scheint mir XSLT nach groben Überfliegen von
http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5273945
nicht ganz unproblematisch für Wadoku.
Summa sumarum, es gibt im Moment leider nur Hiragana, Kanji und Bedeutung.

- Formatierung der Einträge.
Wadoku leidet ja stark unter Komposita, imho sind es für eine EPWING-Version
fast schon zu viele. Man sieht das ja auch, wenn man auf der Hauptseite z.B.
nach 日本語 sucht und mehr als 40 Einträge bekommt. In anderen Wörterbüchern steht
noch nicht einmal 日本語 drin, sondern nur 日本 und 語.
Ich werde versuchen in Zukunft diese Komposita in einen Eintrag zu verfrachten.
Die Frage ist, ob man dann solche Komposita indiziert (um dann wieder so viele
Suchergebnisse zu haben) oder einfach nicht indiziert...


ich habe folgendes probiert:

1.)
try {

    TransformerFactory tFactory = TransformerFactory.newInstance();

    Transformer transformer =
      tFactory.newTransformer
         (new javax.xml.transform.stream.StreamSource
            ("trans.xslt"));

    transformer.transform
      (new javax.xml.transform.stream.StreamSource
            ("wadoku.xml"),
       new javax.xml.transform.stream.StreamResult
            ( new FileOutputStream("wad_converted.xml")));
    }
  catch (Exception e) {
    e.printStackTrace( );
    }
  


2.)./xsltproc -o wad_converted.xml trans.xslt wadoku.xml
3.) java -Xmx1024M -jar saxon.jar -o wad_converted.xml wadoku.xml trans.xslt

Die Datei wird in allen drei Fällen vollständig in den Speicher geladen. Das sind ca. 800 MB.
Danach läuft dann alles normal ab, es wird auch nicht geswappt nur halt alles schrecklich langsam.
Deswegen frage ich mich, ob ich wirklich entries step-by-step lesen muss. Denn ich ich habe ja kein Speicher,
sondern ein Performanceproblem.
Oder hängt das miteinander zusammen?

Naja, auf jeden Fall, auf der Downloadseite steht, daß das Mac-Wörterbuch mit dem xslt auf Github
transformiert wurde. Da mein xslt nicht so verschieden von dem ist, würde mich sehr interessieren,
wie das funktioniert hat, welcher XSLT-Prozessor verwendet wurde, und ob das Skript noch existiert.

PS: Aufgrund der Komplexität der Wadoku-XML Daten möchte ich nach Möglichkeit darauf verzichten, irgendein
XML-Processing händisch zu implementieren. Zudem ist ist das xslt für das Mac-Dictionary ziemlich gut finde ich. Es formatiert die
Einträge ansprechend, ohne gleich alle Informationen außer der Bedeutung wegzuwerfen. Ich möchte nach Möglichkeit
diese Konvertierung "richtig" machen, d.h. das ganze ähnlich ansprechend wie die 2008er EPWING Version zu machen -
nur diesmal mit allen Gaiji
Es hat mir sehr viel Arbeit bei der Konvertierung erspart, auf dem existierenden XSLT aufzubauen. Daher würde ich nach
Möglichkeit gern XSLT
benutzen.... Die Konvertierung des konvertierten XML-Files in EPWing bereitet allein schon genug Kopfzerbrechen
ich versuche mich ein wenig an einer Umwandlung des July-XML-Dumps nach EPWING.

Wenn ich ein Sample von ein paar hundert Entrys aus dem XML-Dump extrahiere, kann ich auch schon etwas Brauchbares konvertieren

http://imageshack.us/photo/my-images/201/sampleb.png/

Das Layout ist natürlich noch verbesserungswürdig.
Als Basis habe ich das XSLT von github abgewandelt, was auf der Downloadseite verlinkt ist.
Leider habe ich das Problem, dass wenn ich den gesamten XML-Dump konvertieren möchte, die Konvertierung extrem langsam ist. Das gilt für mein abgewandeltes xslt, als auch für das Originale.

Speicher ist dabei nicht das Problem, sondern Zeit. Zuerst dachte ich, es liegt an der Standard-Java Library.
Aber auch xsltproc und saxon sind viel zu langsam, die Konvertierung würde so wahrscheinlich Tage dauern.

Hat jemand zufällig ein transform-Skript (Sprache/OS ist egal), bei dem ich quasi

./transform wadoku.xml processor.xslt > out.xml

eingeben kann, und < 1h warten muss?

Am Rechner kann es eigentlich nicht liegen
Wäre für so etwas sehr dankbar.
ob eb4j oder EBStudio: alle diese Tools akzeptieren ja eine HTML/XML Datei als input mit speziellen Tags.

wie schon gesagt: Wenn die Zeit knapp ist: Fall ein SQL - Dump oder irgendetwas "parse"-bares da ist, bastel' ich gerne einen Parser, der das ganze in ein XML - File umwandelt, welches von EBStudio oder eb4j akzeptiert wird (das bei eb4j auch mit XML2EB ein Tool zum Erstellen von Büchern dabei ist, hatte ich bisher übersehen). Falls das Wadoku-Team schon gewisse Vorstellungen was die Aufbereitung der Daten angeht hat, versuche ich das gerne miteinzubinden.
Wenn 38000 unbearbeitete Einträge da sind, ist das sicherlich nicht schön und man sollte die vielleicht erstmal auslassen, aber: solange sich das ursprüngliche Datenformat (ich nehme an, das "Herz" von wadoku ist einfach SQL und neue Einträge etc. kommen zunächst mal auf den Webserver?!) sich nicht ändert, funktioniert ein einmal entwickelter Parser auch später, wenn die Einträge nach und nach abgearbeitet werden.

Ich hoffe, das Folgende klingt nicht zu angreifend/vorwurfsvoll, da ich die ehrenamtliche Arbeit der zahlreichen Mitarbeiter und Unterstützter von Wadoku nicht schmälern möchte, aber:

Ich kann verstehen, wenn Wadoku nicht so gern SQL-Dumps zur Verfügung stellen möchte (mögliche Forks des Projektes etc., Problematik der Verwendung der Daten in kommerziellen Projekten) aber nur als Hinweis: Es gibt eine Menge fähiger Menschen die Umwandlung in die unzähligen Formate die so existieren (EPWING, EDICT, OSX-Wörterbuch, Stardict etc. etc.) sicherlich _für Wadoku_ erledigen würden, wenn sie nur irgendwie anfangen könnten Oder um es anders zu sagen: Wenn besseres Rohdatenmaterial da wäre, hätte ich sicherlich schon vor fünf Monaten angefangen einen Parser zu basteln

Im Moment ist es einfach sehr schade, daß die neueste, nutzbare offline-Version von Wadoku eine 2 Jahre alte edict-Version ist.
Ich bumpe diesen Thread nocheinmal, um meine Bitte zu wiederholen und die Problematik erneut zu schildern:

- die momentane EPWING - Version (200 ist defekt. Das ist besonders problematisch, weil
1.) es keine vernünftige Reader-software für Linux gibt, die damit umgehen kann
2.) man ohne EPWING - Version nicht in multiplen Wörterbüchern gleichzeitig suchen kann
3.) bisher für ANDROID die einzige Möglichkeit Wadoku vernünftig zu nutzen die Software Droidwing ist, die jedoch öfter mal abstürzt wg. der defekten EPWING Version.

Kurzum: Fast sämtliche Software, die auf der Bibliothek eblib/libeb aufbaut, bekommt Probleme und das sind fast alle (freien/linuxbasierten) EPWING-reader

Das ist besonders schade, weil die Einträge der neuen EPWING-Version offenbar mit viel Sorgfalt gemacht wurden (was Zusatzinformationen und Beispielsätze angeht).

Es wäre daher sehr sehr hilfreich wenn

- jemand vom Wadoku - Team eine neue EPWING Version bereitstellt
- jemand vom Wadoku - Team irgendeine Version bereitstellt, z.B. einen SQL-Dump etc., bei dem nicht derartig viele Informationen fehlen wie bei dem aktuellen EDICT-Dump. Das EDICT-Format ist einfach extrem beschränkt. Auf Basis dessen könnten dann andere Nutzer (ich persönlich würde mich zumindestens bemühen, was ordentliches hinzukriegen) eine neue EPWING-Version erstellen.

Es wäre noch viel viel hilfreicher wenn
- jemand die FreePWING-Skripte (ich nehme an FreePWING wurde benutzt, zumindestens laut Readme in der 2005er EPWING-Version) zur Verfügung stellen würde, denn dann müsste man bei der Konvertierung nicht bei 0 anfangen, sondern könnte sich darauf konzentrieren die Bugs der aktuellen EPWING-Version zu beheben.

Überhaupt wäre es nett, die ganzen Änderungen (ist ja auch schon 2 Jahre her) mal in einer aktuellen Version zu haben.

Ich helfe gerne aus und unterstützte wo ich kann, wobei ich trotz Perl-Kenntnissen noch keinen rechten Durchblick über die FreePWING Bibliothek habe, da die ganze Doku in Japanisch...
Ist die Person, die damals die EPWING-Version erstellt hat, denn noch irgendwie erreichbar?

Ich habe mal heute selbst eine EPWING-Version erstellt, basierend auf dem neuesten EDICT-Dump und

hier auf rapidshare hochgeladen...: http://rapidshare.com/files/386073953/wadoku.zip.html

Wer will, kann da gerne mal mit rumspielen; ich hoffe auch, daß ist im Sinne der Lizenz.

Die Fehler bezüglich der Gaiji sind jetzt gelöst, zumindestens funktioniert das hier mit EBView und EBWin, jedoch sind die _Suchergebnisse_ nicht mehr so schön sortiert und gruppiert. Zum einen war meine Aufbereitung der Daten wahrscheinlich etwas schlampig (ein paar zusammengehackte RegExps), zum anderen nutzte ich eine unregistrierte Version von EBStudio, so daß nicht alle Indizes erstellt werden konnten, was die Suche einschränkt.

Bei letzterem bin ich mir bzgl. der Lizenz auch nicht so sicher, und ob ich das damit erstellte Wörterbuch hier überhaupt posten darf...

Es sind sicher auch zahlreiche Fehler drin, da daß Quellmaterial ja evtl. Fehler hat (siehe Thread) und ich einfach RegExps benutzt habe, im Vertrauen, daß das schon paßt...

Mich würde interessieren, wie die Person vorher die EPWING-Version erstellt hat. Da bei EPStudio Gaiji-Maps für die üblichen europäischen Zeichen (also Umlaute) mitgeliefert werden, wäre es interessant, das in den vorher benutzten Weg miteinzubinden (Umlaute), bzw. nicht-darstellebare Zeichen zuerst aus dem Quellmaterial zu entfernen (nicht unbedingt benötigte Sonderzeichen). Wenn ich mir das Resultat so anschaue, denke ich, der vorherige Ersteller hat einen ähnlichen Weg benutzt, aber im Quellmaterial einfach an manchen Stellen Sonderzeichen, die nicht in der JIS-Spezifikation sind, nicht entfernt bzw. auch keine gaiji-maps erstellt... Ich denke, wenn der ursprüngliche Weg im Sinne eines Skriptes etc. einfach reproduzierbar wäre, wäre es ein nicht so großer Aufwand, daß zu verändern.

(sorry wenn ich damit so nerve, aber das Crown 独和 zusammen mit wadoku.de und Daijirin ist sehr sehr praktisch ...)

EDIT (auf ein drittes): Ich denke es wäre sicherlich möglich, eine schönere EPWING-Version zu basteln wenn besseres Ausgangsmaterial vorhanden wäre - die EDICT Version ist doch sehr primitiv. Gibt es noch irgendwo aktuelle SQL-Dumps oder halt irgendwas, wo man mehr oder weniger einfach 'nen Parser (Perl oder besser gleich lex) für basteln kann?
boscowitch wrote:Das problem kenn ich auch, die frage ist muss es umbedingt EPWING sein ?


Ja - alle kommerziellen Wörterbücher (Crown Dokuwa, Consaizu Wadoku, Daijirin), die ich besitze, sind im EPWING-Format. Deshalb ist es ja so interessant, Wadoku.de im EPWING-Format zu bekommen, weil EPWING die einzige Möglichkeit ist, die verschiedenen kommerziellen Wörterbücher mit Wadoku.de in einer Viewer-Software zu benutzen.

irgendwer wrote:
Gibt es Pläne, an einer verbesserten Version mit EPWING zu arbeiten?


Da darauf nicht geantwortet wurde, nehme ich dann mal an, die Antwort ist leider "Nein". Schade. Vielleicht, wenn Ihr den nächstens Praktikanten bekommt
ich nutze EBView unter Ubuntu 9.10, zusammen mit anderen EBWING Wörterbüchern u.a. zusammen mit Wadoku.

Leider gibt es irgendwelche Probleme mit den gaiji. Sobald man in Wadoku sucht, bekommt man fortwährend eine Fehlermeldung "cannot find 24 dot gaiji. Use 16 dot instead". Klickt man die Fehlermeldung weg, dann kommt direkt die nächste.
Gibt es Pläne, an einer verbesserten Version mit EPWING zu arbeiten? Ich könnte mir gut vorstellen, daß die Probleme bei DDWin ähnliche Ursachen haben.

Das Problem ist, daß unter Linux EBView eigentlich der einzig vernünftig nutzbare EPWING-Viewer ist. Andere Viewer sind veraltet und werden nicht mehr maintaint, oder einfach so kryptisch und schwierig zu installieren (eblokup/Emacs oder Vim, massig Probleme mit japanischer Anzeige und Eingabe), daß es sich nicht lohnt. Wine ziert sich auch, zwar nicht bei der Darstellung, jedoch bei der Eingabe von Japanisch.

Ich wollte mich an dieser Stelle mal für die i-mode Version bedanken.

Sicherlich schaue ich da nicht täglich nach. Aber wenn man mal unterwegs ist und sein (Papier)wörterbuch vergessen hat, oder dort komplexeres Vokabular nicht drinsteht, dann ist es verdammt praktisch, wenn man quasi eine letzte Möglichkeit hat, um mal schnell was nachzuschauen. Zudem durch i-mode im erträglichen Bereich, was den Paket-count angeht. Für diejenigen, die sich in Japan aufhalten, sei es Urlaub oder längerfristig, eine echte Bereicherung!

Also vielen Dank und bitte bloß nicht wieder abschalten!
 
Forum Index » Profile for irgendwer » Messages posted by irgendwer
Go to: