Wadoku

Wadoku Wörterbuchsuche
Forum

Inhaltsverzeichnis

Zuletzt aktualisiert

Zum Ende der Metadaten springen
Zum Anfang der Metadaten

Die aktuelle Version der Wadoku XSD befindet sich auf dem neuen Wadoku-Server unter: http://85.10.207.185/wadoku/xml/entry.xsd
Alle anderen Infos dazu haben eher historischen Charakter.

Detailierte Unterpunkte:

Für Entwickler:
Wenn man Änderungen an der XSD macht, dann muss man die de.wadoku.entry-Classen neu generieren, z.B. mit folgendem Eclipse-Plugin: https://jaxb-workshop.dev.java.net/plugins/eclipse/xjc-plugin.html
Und dann schauen wo es kracht und die Stellen anpassen, damit es wieder kompiliert.

Hier zur Veranschaulichung ein XML Beispiel.

<entry id="433401" xmlns="http://www.wadoku.de/xml/entry">
    <form>
        <orth>
            <text>女性</text>
        </orth>
        <pron>
            <text>じょせい</text>
        </pron>
        <pron accent="0" type="hatsuon">
            <text>じょ'せい</text>
        </pron>
    </form>
    <gramGrp>
        <pos type="N"/>
    </gramGrp>
    <sense>
        <trans>
            <tr>
                <token type="N" genus="f">Frau</token>
            </tr>
        </trans>
        <trans>
            <tr>
                <text>weibliche</text>
                <token type="N" genus="f">Person</token>
            </tr>
        </trans>
        <trans>
            <tr>
                <text>weibliches</text>
                <token type="N" genus="n">Wesen</token>
            </tr>
        </trans>
    </sense>
    <sense>
        <trans>
            <tr>
                <token type="N" genus="f">Weiblichkeit</token>
            </tr>
        </trans>
        <trans>
            <tr>
                <text>weibliche</text>
                <token type="N" genus="n">Geschlecht</token>
            </tr>
        </trans>
    </sense>
    <sense>
        <usg type="dom">Gramm.</usg>
        <ref type="anto" id="7469167">
            <transcr>dansei</transcr>
            <jap>男性</jap>
        </ref>
        <trans>
            <tr>
                <token type="N" genus="n">Femininum</token>
            </tr>
        </trans>
    </sense>
</entry>
  • Keine Stichwörter

11 Kommentare

  1. Dan sagt:

    Die Domains fehlen noch, oder soll das durch usage mit uebernommen werden?

    Wuerde sonst folgende Ergaenzung vorschlagen.

      <xs:complexType name="senseType">
        <xs:sequence>
          <xs:element name="usg" type="usgType" minOccurs="0" />
          <xs:element name="dom" type="domType" minOccurs="0" />
          <xs:element name="trans" type="transType"/>
        </xs:sequence>
        <xs:attribute name="diclevel" type="xs:int"/>
      </xs:complexType>
    
    
      <xs:complexType name="domType" mixed="true">
        <xs:attribute name="type">
          <xs:simpleType>
            <xs:restriction base="xs:string">
              <xs:enumeration value="Biol." />
              <xs:enumeration value="Rechtsw." />
              <xs:enumeration value="Wirtsch." />
              <xs:enumeration value="..." />
            </xs:restriction>
          </xs:simpleType>
        </xs:attribute>
      </xs:complexType>
    
  2. Dan sagt:

    Folgendes wird noch nicht beruecksichtigt, das sollte aber zumindest teilweise mit hinein, oder?

    *etymology
    *examples
    *usage information
    *cross-references to other entries
    *notes
    *entries (often of reduced form) for related words, typically called related entries

  3. tom sagt:

    Danke, die Doms habe ich angepasst mit aufgenommen. Das andere schaue ich mir noch genauer an.

  4. tom sagt:

    Die jeweils aktuelle XSD wie auch die komplette Wadoku-Webanwendung liegt ab sofort im SVN, und zwar unter: https://svn.iai.uni-bonn.de/repos/wadoku/website/trunk/webroot/xml/entry.xsd
    Wer einen Zugang haben will bitte bei Jonas melden: jonas at wadoku dot de

  5. Ulrich Apel sagt:

    Verstehe ich es richtig, dass jeder Eintrag eine Grammatikgruppe haben soll, die gefüllt sein muss?Bei Verwendungsbeispielen ist es nicht immer sinnvoll, Grammatik angeben zu wollen.

    Am vernünftigsten ist es sicherlich, Grammatikangaben mit den Übersetzungen zu kombinieren. Ein Wort kann z.B. transitives Verb sein und muss dann auf bestimmte Weise übersetzt werden oder es kann intransitiv sein und muss dann anders übersetzt werden. Das "gram" für den gemischten Typ sieht so etwas ja wohl auch vor. Auch für Nomen, die als Nomen, als adnominales Attribut, als Na.-Adjektiv, als Verb mit suru etc. verwendet werden können, wäre es geschickter, anzugeben, in welchem grammatischen Kontext es jeweils wie übersetzt wird.

    Wahrscheinlich ist die gramGrp in vielen Fällen redundant und in den anderen Fällen könnte sie wohl durch den gemischten Typ ersetzt werden. Für letzteres würde ich plädieren.

  6. Dan sagt:

    So wie das dasteht, ist die Grammatikgruppe optional (minOccurs="0").


    Es gibt aber auch Eintraege die zu mehreren Domaene gehoeren und durch ein Attribut duerfte es schwierig werden das abzubilden, ausser durch Freitext im Attribut.

    Inwieweit ist geplant den Akzent mit einzubauen, oder ist das das "acc" im <usg>? Da wuerde sich sonst eine Erweiterung des <pron>-Elements anbieten, evtl. einfach durch ein Attribut z.B:

    <pron type="hatsuon" accent="2">はな</pron>
    

    Da faellt mir noch ein... Sollen dann [Dev], [Gr] usw. ebenfalls ueber das <pron>-Feld abgedeckt werden? Ich denke, es waere ok, das wie bisher mit dem Romaji-Feld zu handhaben. Evtl. muesste die Syntax etwas angepasst werden. z.B. anstelle eines /<1:...> ein richtiges xml-Element mit enthaltener Referenz.

    <pron type="hatsuon" accent="1"><ref id="1">あい</ref> の <ref id="2">こ<dev>く</dev>はく</ref></pron>
    

    Referenzen sind auch noch nicht drin, oder soll das alles mit <usg> gemacht werden? Sonst koennte man evtl. die Referenzen mit den verwandten Eintraegen in ein Element packen.

    <ref type="ref" id="1">...</ref>
    <ref type="HE" />
    <ref type="syn">...</ref>
    <ref type="ant">...</ref>
    
  7. Yoshtec sagt:

    Ich wollte es eigentlich schon nach dem Vortrag gesagt haben aber diese Verwendung von dem lang Attribut in der folgenden Weise:

     <def lang="orig. engl." type="title">The Turn of the Screw</def>
    
    <trans lang="scientific">
       <tr>Brassica oleracea var. botrytis</tr>
    </trans>
    

    würde ich so nicht machen, denn das lang Attribut ist stark vorbelastet , selbst wenn man es nicht explizit in der xsd aus dem xml namespace importiert, wie es eigentlich richtig währe. Dies kann sehr leicht zu Verwirrungen führen. Das Original ist ja nur bei echten "lang_locale" (alias iso lang codes) Einträgen valide. Ich denke man sollte schon ein anderes Attribut nehmen, was nicht so vorbelastet ist. Wir sollten es hierbei wirklich bei dem klassichen lang Eintrag lassen und den auch auf "de" (bzw. in diesem Fall sogar "en") setzen, so ist eine spätere Konsolidierung mit anderen Daten auch einfacher.

    Vielleicht eher so:

     <def lang="en" desc="orig. engl." type="title">The Turn of the Screw</def>
    
    <trans lang="la" desc="scientific">
       <!-- es gibt sogar Latein = la! -->
       <tr>Brassica oleracea var. botrytis</tr>
    </trans>
    

    Weiterhin sollte dann damit auch das xml:lang Attribut in die XSD aufnehmen und dann mitschleifen. Ansonsten wird von einigen (dummen) Programmen der Standartwert "en" angenommen, was der Sache nicht gerecht wird.

  8. Dan sagt:

    Ich glaube "nonToyo" ist nicht mehr zeitgemaess -> nonJoyo (aber ist wohl nur Kosmetik ;)irregReading = irregulaere Lesung (nur) der Joyo-Kanji?

    Vielleicht sollten zumindest noch die Jinmei-Kanji mit beruecksichtigt werden. Diese koennen auch eine irregulaere Lesung haben.

    Eine Sache, die man noch ueberlegen koennte, waere der unterschiedliche Akzent fuer unterschiedliche Senses.
    Das liesse sich einfach durch ein optionales accent-Attribut beim sense verwirklichen.
    Im Wadoku haben wir bisher nur einen Akzent, aber es gibt auch Woerter da sind verschiedene Akzente moeglich. Deshalb waere es vielleicht besser, accent als Array oder Liste von int zu deklarieren.

    Die Zuordnung bestimmter Schreibungen zu den senses ist auch notwendig, das koennte man machen, indem man die Schreibungen (orth) nummeriert und bei den senses diese IDs mit speichert.
    Stellt sich noch die Frage, ob es dann ausschliesslich so geschrieben wird, oder ueberwiegend usw., auch ob es Sinn macht das zu beruecksichtigen.

  9. Dan sagt:

    Auf die gleiche Weise ist eine Bindung von Worttypen an bestimmte senses notwendig.

    In folgendem Beispiel ist die Verwendung mit suru an die Bedeutung ① geknuepft.

    し‐ちょう【視聴】─チャウ〘名〙
    〘他サ変〙見ることと聞くこと。聴視。「─者」
    ②見聞きすることへの注意や関心。「世間の─を集める」

  10. Anonym sagt:

    Die XML Beispiele finde sehr schön zum Verständnis der ganzen Sache, allerdings habe ich eine Frage: sind sie alle wohlgeformt und vollständig? Wenn ich die aktuelle xsd richtig verstanden habe, müßte doch jeder entry genau ein form element enthalten. Oder sehe ich das falsch?

  11. tom sagt:

    Ich habe das XML-Beispiel hier aktualisiert, das war nicht mehr ganz aktuell. Richtig, laut XSD muss jedes Entry genau ein Form haben.

Kommentar schreiben