Wadoku.de Forum
  [Search] Search   [Recent Topics] Recent Topics   [Hottest Topics] Hottest Topics  
[Register] Register /  [Login] Login 
dokujibiki ein freies deutsch/jap wörterbuch 独字引き フリー独和辞典  RSS feed
Forum Index » Off-Topic/Sonstiges
Author Message
boscowitch



Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline

Also mal an alle interresierten die mitarbeiten wollen und mehr wissen wollen

Momentan läuft das Projekt unter dem entwicklungsnamen: dokujibiki
Website (noch nix da): www.dokujibiki.de

Sourcecode: http://github.com/boscowitch/dokujibiki

falls der name doch zu absurd ist kann man den namen immer noch ändern (1 kostenloste de domain hab ich noch, wenn jemand spendabel ist kann er auch .jp oder .net holen aber ich sag nur leider relativ teuer

gesucht werden Entwickler und einfach nur user die auch gerne und gut aktiv was beitragen wollen.

Entwickler nehmen wir alle die wir bekommen im bereich:
PHP
XHTML / CSS
C/C++
SQL (MySQL / SQLite)

wer ersnsthaft mtiarbeiten will sollte sich bei mir melden und bei github anmelden um schreiberechte zu erhalten auf das git repository.

User alle die japanisch können! und natürlich Deutsch, jedoch wird es für dieses Projekt nötig sein mehr japanisch als deutsch zu schreiben hingegen zu wadoku.

Die idee kurz beschrieben:
-Ein freies dokuwa jiten Deutsch / Japanisch wörterbuch für bessere suche deutsch -> jap
-Die nutzer sollen hierbei auch die Autoren dieses sein, und auch kontrolieren (wiki like)


wer vorschläge hat ist willkommen, kritik ist auch erlaubt, blos bitte nicht pessimistisch und schlechtmachend ohne das es was bringt.
Dan


[Avatar]

Joined: 24/05/2006 16:58:45
Messages: 1280
Offline

Klingt schon irgendwie nach http://de.wiktionary.org/wiki

無知の知
boscowitch



Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline

Jep ein tolles universelles Projekt aber die Suche und Präsentation finde ich nicht sehr toll, zumindest nicht wenn man es nicht in allen Sprachen habe oder schneller arbeiten will.
einfach nur ein Wiki zu modden wird wohl nicht reichen für ein schönes Wörterbuch interface.

Aber es ist schon mal besser als nichts, schön finde ich auch das hier immer IPA Lesungen dabei stehen.
Die Lizenz ist auch relativ frei bis auf Namensnennung, aber das wäre sogar gar nicht mal so scher über ein Autor Feld zu lösen.
boscowitch



Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline

soo ich hab mal nen bischen gebastelt um ein relativ dynamisches konzept zu bekommen.
ist noch nicht schön aber ich wollt mal nach vorschlägen fragen.
ist jetzt leider eng. jap. gemischte beschreibung (damit ich nich vergesse wie die japanischen waren) das werd ich aber noch warsch auf engl. ändern.

Das Design soll so sein das man mehrer Wörterbücher definieren kann die aus einer Gruppe von Kategorien besteht (im Prinzip unter Wörterbücher wie z.b. Wirtschaft ect.) und mehre Kategorien zu Einträgen hinzufügen kann wie z.b.. Umgangssprache, Fachsprache, EDV usw.

Dazu jede Eintrag mit Beispielsätzen verlinkt werden können und mit Ursprungs Wörtern und verwandten Wörtern.

Ein wenig tricky ist noch die beispielsätze lückenlos in der Übersetzung anzuzeigen wobei es da auch mehrere Möglichkeiten gäbe das zu lösen.

Ich will auf keinen fall etwas übereilen das die ganze Nutzbarkeit der Daten mit dem DB Design steht oder fällt...
also Leute mit Datenbank Erfahrungen sind jetzt gefragt! Ich habe leider die Vorlesung für DBS erst nächstes Semester und selbst die es hatten kennen sich nicht wirklich damit aus...
image

EDIT: so habe es nochmal upgedated, es ist warsch noch nicht ganz perfect aber so langsam könnte ich es mir im betrieb vorstellen,
system



Joined: 29/12/2009 08:46:05
Messages: 142
Offline

Wieso eigentlich Englisch? Wäre es nicht sinnvoller möglichst alles auf Deutsch und/oder Japanisch zu machen? Sonst setzt man ja quasi Dreisprachigkeit voraus bei den Leuten, die in Bereich mithelfen sollen, weil man ja ohne Deutsch und Japanisch bei einem Japanisch-Deutschen-Wörterbuch eh nicht weit kommen wird.

Sollte Autor wirklich ein Textfeld sein? Sollte es da nicht eher eine Liste mit Autoren und deren Daten (Name, Email, Qualifikation, oder so) geben. Was wenn mehrere Autoren an einem Eintrag mitschreiben?

Außerdem könnte auch ruhig dabei stehen, wann ein Eintrag eingefügt und wann zuletzt geändert wurde. Eventuell könnte man sich auch die alten Daten eines Eintrages merken, sodass man quasi wie bei Wikipedia wieder zu einer alten Version zurückkehren kann, wenn ein Fehler gemacht wurde.

Wordtyp als Text ist auch nicht optimal. Dann gibt es nur Schreibfehler und ähnliches. Das sollte eher ein INT-Wert sein. Man will den Typ ja denn eh je nach Sprache des Benutzers mal auf Deutsch und mal auf Japanisch ausgeben. Natürlich kann ein Wort auch mehrere Worttypen haben, also reicht ein INT-Wert allein wohl nicht.

"reading" ist wohl die Aussprache des deutsche Wort per Hiragana approximiert und "ipa_reading" dann die richtige Aussprache mit IPA? Was wenn es mehrere Möglichkeiten gibt ein Wort zu lesen? Wie sieht dann der Text dort aus?

"translation" ist ja nur ein Textfeld. Wie sieht das dann aus, wenn ein deutsches Wort im Japanischen 5 verschiedene Bedeutungen hat und man für jede Bedeutung zwei mögliche japanische Übersetzungen anbietet.

Sollten die Beispielsätze dann nicht auch immer zu einer bestimmten Bedeutung eines Wortes gehören? Wenn ich etwa mal das Wort "Schwein" nehme, dann ist das einmal ein Tier, aber auch eine Beleidigung. Natürlich soll dann bei der Übersetzung von Schwein ins Japanische als 豚 nicht "Du Schwein, ich bring dich um." als Beispiel dabei stehen.

Wofür ist das Statusfeld da? Kann man damit Einträge, die unfertig sind von der Anzeige ausschließen? Eventuell gibt es dafür auch ein "visible"- oder "deleted"-Feld.

Wo willst du denn den Inhalt für das Feld "frequency" herbekommen? Gibt es da freie Quellen für? Kann man später auch die Frequenzangaben aus verschiedenen Listen irgendwie sinnvoll kombinieren? Was soll die Zahl dort dann bedeuten? Auf welchen Platz das Wort in einer Rangliste steht? Oder wie oft es durchschnittlich auf etwa 100.000 Wörter vorkommt?
boscowitch



Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline

Alles gute punkte, ich habe mir mittlerweile auch andere sql projekt daten angeschaut und gemerkt das noch einiges fehlt

das mit der 3 sprachikeit stimmt .. is so nen informatiekr fimmel alles auf english zu mappen, jap wär halt doof wegen romanji, vieleicht dann doch eher deutsch, wobei dann ist es halt schwer falls jemand den code nutzen wil um ein anderes dwörterbuch zu machen das nicht Deutsch oder jap. ist aber das ist erstmal nicht so wichtig.


Das mit Autor stimmt natürlich da fehlen noch andere tabellen damit man es verlinken kann, da überlege ich grad noch daran ob man es direkt mit einem forum verlinken kann damti man keine 2 getrennte logins benötigt.
Wenn mehrere mitschreiben so wird halt immer der letzte genommen, wie bei wikipedia auch.

Datum kommt sofort und ich mach glaube ich noch eine 2. Tabelle für ältere beiträge damit die suche durch diese nicht verlangsamt wird.

Bei Wordtyp hast du auch recht, ich wollte am anfang erstmal viele verlinkungen vermeiden aber ist eigentlich falsch bei SQL.

reading fand ich selbst auch schwierig, katakana lesungen sind sowiso fürn a*** aber japaner wollen die bestimmt weil IPA können bestimmt nur Studenten Europäischer sprachen. Ob es sich für die reading lohnt mehrere zzu verlinken weiß ich nicht im notfall kann man sie immer noch per ; trennen, eine suche über katakana readings sollte sowiso nicht möglich sein, oder ist es doch so wichtig ? (persönlich find ich ja katakana eigo oder doitsugo schlimm aber andereseits ist es die schnellste möglichkeit für einen japaner es auszusprechen wenn auch grottig)

mit der translation, ich wollte nicht die übersetzung von dem wort durch eine Tabellen verlinkung trennen aus geschwindigkeits gründen.
Hier hab ich mir was überlegt das man z.b. im translation feld alle sachen reinschreibt und die beispielsätze per Platzhalter makiert, die werden dann immer transparent bei der ausgabe/export ersetzt durch die Sätze, daher hat das reibun auch ein order damit man es in der richtigen reihenfolge bekommt:
z.b.:
[1]Erste bedeutung
[1.0] < wird durch satz + übersetzung ersetzt
[2] Zweite ..
statt newlines wären ; vieleicht besser damit man es auch ohne umbrechen z.b. in einem Programm anzeigen kann ohne viel platz und HTML und man kann es schneller ohne Platzhalter und Beispielsätzen in der Ergebniss Tabelle nach einer suche anzeigen wo nicht so viel platz ist (da es nicht auf 2-3 Tabellen verteilt ist).
Ich weiß aber nicht 100%ig ob das strreplace von PHP schneller ist als MySQL.


Das Statusfeld soll so einiges definieren nicht nur visible oder nicht sondern auch ob der Eintrag abgesegnet wurde und gecheckt oder ob er Neu oder editiert worden ist und daher noch 2t geprüft werden muss ect. wann der Eintrag sichtbar ist oder nicht ist diskutierbar, am anfang würde ich ihn so gut wie immer anziegen da der bestand ja wachsen und sich schnell verbessern soll,später könnte man zur Quallitätssicherung einiges ausblenden das neu oder editiert ist.
Hierfür wäre dann aber auch eine Tabelle hilfreich für noch nciht sichtbare neue Versionen...

frequency ist so ne sache, hier müsste ich noch recherchieren ob es da offizielle sachen gibt für deutsch, aber es wäre auch denkbar sich diese daten selber zu generieren.
um es nicht zwanghaft angeben zu müssen könnte man aber auch noch ein 2. feld machen mit rang oder so, aber ich glaube nicht das man dies bei einem dokuwa benötigt da man da ja nicht nach japanisch suchen will (wadoku gibts ja schon) und daher keine volltextsuche braucht.Doppel belegungen eines wortes sind ja alle in einen Eintrag, da es ja keine verschiedenen Schreibweisen gibt für gleiche aussprachen gibts da also auch keinen Reihenfolge Probleme.

Nur in Beispielsätzen gäbe es eine Volltextsuche, aber diese würde ich eh entweder getrennt oder immer als letztes in den Ergebnissen anzeigen.
Haf


[Avatar]

Joined: 30/05/2006 23:30:38
Messages: 242
Location: Karlsruhe, ドイツ
Offline

Ich hatte nicht die Zeit, mir jetzt alles zu durchdenken, was da aufgezeichnet ist, aber ich würde an Deiner Stelle auch an den Verknüpfungstabellen (has) extra Primärschlüssel einbauen, es ist einfach sauberer so.

Zur Sprache, die Bezeichnungen können schon englisch sein, da sehe ich kein großes Problem, auf jeden Fall sollte aber durchweg eine Sprache verwendet werden und kein Mischmasch.

Hast Du Dir Gedanken dazu gemacht, wie dann später neue Einträge den bisherigen Beispielen, bzw. neue Beispiele den vorhandenen Einträgen zugeordnet werden sollen?

現実は聞いたよりももっと悲しい。
[WWW] [ICQ]
boscowitch



Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline

Ja das mit dem Primärschlüssel stimmt, sonst wirds was fummelieger sie einzelnt zu identifizieren.

Hmm ja ich hatte das mit den alten Einträgen am Anfang vergessen daher fehlt das auch komplett.

Das zuordnen der Beispielsätze (und diese zum teil selbst) muss der Beitragsschreibende machen, da er auch diese in ihrer Art einordnen muss (bei wörter mit mehreren anwendungs und übersetzungs fällen)
jedoch ist ein link für einen Beispielsatz Volltextsuche sicher auch interresant, eine separate Volltextsuche über alle Beispielsätze soll sowiso möglich sein, dies ist vorallem sehr schön da man dann dank der verknüpfung von dem satz zu seinen Wörtern gelangen kann.
Natürlich kann auch jeder immer neue Beispielsätze den Beiträgen zuordnen oder den Beitrag ganz editieren.
Alle Verknüpften Beiträge die dann nicht in die Übersetzung eingebett werden mit höherer order werden dann einfach in weitere Beispielsätze gelistet.


Schwierieger finde ich alte beitrags versionen zu speichern.
Eine einfache möglichkeit wäre die tabellen struktur für alte Einträge noch einmal zu erstellen,wobei das warsch zu viel des guten ist.
vieleicht reicht es aber nur den Text mit den Beispielsätzen reinkopiert zu speichern, leider verliert man dann die Verknüpfungen, aber die alten Beiträge sollten ja auch nur Zeigen was sich verändert hat.

EDIT:
So die root server bestellung ist raus, hosteurope hatte gerade nen gutes angebot und bis dato fand ich deren service gut.
Wegen der Programmiersprache für die Website bin ich gerade am rumspielen mit C++ und WT (witty) damit bekommt man schönen code und sehr performante websites ohne AJAX selbst zu coden.

PHP wäre zwar schön weil es weit verbreitet ist aber nach ein bischen suche nach performance schneidet es nicht so toll ab, auserdem können große PHP Projekte sehr unübersichtlich werden, vieleicht ist das mit Obejct Orientierung in PHP5 was schöner allerdings ist das auch noch nicht überall verfügbar.

nachteil von witty ist es gibt noch wenig bestehende Projekte, darum wird ein Forum doch noch in PHP o.ä. geschreiben bleiben.

EDIT2:
So hab den ersten groben entwurf mit WT (witty http://www.webtoolkit.eu/wt) mal auf github gepushed, wer neugierig ist kann es sich mal ansehen, das design ist momentan natürlich weit von perfekt und noch tut es nichts großes aber ich denke mal ich werde bei WT bleiben es ist zwar nicht so einfach eine statische Seite zu machen aber dafür sollte das dynamische besser gehen.

Der rootserver dauert warsch jetzt nur noch wenige tage bis er läuft, kundendaten habe ich schon, ich werd noch nen bischen an der Datenbank feilen müssen aber dann hoffe ich bald einen ersten Demoeintrag anzeigen zu können und auch neue einträge Vorschlagen zu können.

 
Forum Index » Off-Topic/Sonstiges
Go to: