Hallo,
Ich arbeite aktuell mit dem XML dump von
https://www.wadoku.de/downloads/xml-export/wadoku-xml-20230702.tar.xz
<entry id="8069659" version="1.6" HE="true" xmlns="http://www.wadoku.de/xml/entry"><form><orth midashigo="true">広げる</orth><orth midashigo="true">△拡げる</orth><orth>広げる</orth><orth>ひろげる</orth><orth type="irreg">拡げる</orth><reading><hira>ひろげる</hira><hatsuon>ひろ~げる</hatsuon><accent>4</accent></reading></form>[.......] </entry>
Das Wort wird dort mit accent pattern 4 gelistet, was nicht korrekt ist.
Auf der Website steht es aber korrekt als Accent Pattern 0:
https://www.wadoku.de/entry/view/8069659
Das selbe Problem ist mir auch bei mehreren anderen Wörtern aufgefallen, z.B. das Partner-Wort 広がる.
Übersehe ich hier einen Trick, wie man anderweitig auf Pattern 0 schließen kann/muss, wenn der Wert als etwas >= der Anzahl an Mora ist?
Oder mappt die Webseite einfach generell auf Pattern 0 im Fall dass die zahl >= der Länge ist?
Auf jeden Fall wäre es schön, wenn die Daten im XML korrigiert werden könnten
Edit:
Ich wollte gerade auch mal die Gegenprobe machen, und ein Wort suchen was tatsächlich Pattern 4 ist: おとうと/弟
https://www.wadoku.de/entry/view/7626154
Hier ist das Pattern sowohl im XML als auch auf der Seite als 1 angegeben, was meines Wissens nach falsch ist (und auch recht komisch klingt).
Falsches Wort!
https://www.wadoku.de/entry/view/9034898 passt