Wadoku.de Forum
  [Search] Search   [Recent Topics] Recent Topics   [Hottest Topics] Hottest Topics  
[Register] Register /  [Login] Login 
Messages posted by: yoshtec
Forum Index » Profile for yoshtec » Messages posted by yoshtec
Message
Aber Respekt!

Ich bin immer wieder erstaunt wie schnell ihr die Fehler und kleinsten Anomalien hier findet.

Sorry!

Aber das musste irgendwann mal sein! Besser zu so später Stunde als in der Hauptzeit (wenn es die denn dann wirklich geben sollte).
so ziemlich alles:
http://www.mainichi.co.jp/
http://www.yomiuri.co.jp/
http://www.sankei.co.jp/
etc.

(Ohne Rückschlüsse auf politische Zielrichtung bei der Nennung dieser Zeitungen

P.S.: Ich habe die Zeit auf Wadoku richtig eingestellt, deswegen diese komische Sortierung.
Also bei mir (Firefox 1.5.0.9 auf Win) funktioniert das für Japanische Wörter nur solange auch die Website selber in UTF-8 geschrieben ist. Wenn ich dagegen auf eine Shift-JIS Seite gehe funktioniert das Bookmarklet nicht.

Tritt das nur bei mir auf oder kann das jemand verifizieren?

(Falscher Timestamp!)
Ja mach das mal, es würde mich interessieren ob die das bei der Erneuerung auch mitbedacht haben (oder wieder nur die Oberfläche geändert haben). Ich hatte auch das BOM eingefügt, aber Excel XP lies sich trotzdem nicht auf UTF-8 ein. Ich befürchte, dass sich daran bei 2003 nicht viel geändert haben wird.


Um auf das ursprüngliche Problem zurückzukommen:

Mein Workaround ist, die Datei in wadcsv.txt umbenennen und dann per Text-Import von Excel importieren (ganz normal in Excel "Öffnen" und dann txt Dateien auswählen). Denn dann kann man zumindestens per Hand das encoding festlegen.

Ich hoffe, dass es dann klappt.

Wenn du Lust und Zeit hast kannst du das ja auch ausprobieren ralferly. Vielleicht können wir bei der nächsten Version ja auch dann (sinnvollerweise) ein BOM in die CSV und die XML Datei einfügen.

Ich hänge zum testen mal beide Versionen mit und ohne BOM an.
Ich habe ja nicht gesagt, dass es immer das gleiche encoding hat, sondern das die Byte Order bei UTF-8 immer die gleiche ist (alias LittleEndian oder BigEndian).
siehe Auch:
http://de.wikipedia.org/wiki/Byte-Reihenfolge
http://de.wikipedia.org/wiki/UTF-8
http://de.wikipedia.org/wiki/UTF-16
http://unicode.org/unicode/faq/utf_bom.html

Wenn ich mir Dateien in UTF-8 auf meiner Platte mit dem HEX-Editor ansehe haben die meisten keinen BOM (also EF BB BF) am Dateianfang.

Wenn man die csv Datei von Wadoku mit Notepad von Windows ansieht, ist es auch kein Problem. Er erkennt auch ohne BOM, dass es eine UTF-8 Datei ist, wenn man die Bytes am Anfang einfügt funktioniert es immer noch. Für Notepad macht es also keinen direkten Unterschied. Notepad selber schreibt allerdings schon ein BOM.

(Ich sage auch nicht, das es nicht gut ist das kein BOM da steht. Aber manche Programme machen auch Probleme wenn man das BOM in der Datei stehen hat. Z.B.: Shell Scripte in Unix, die dann auf unerfindliche Weise einfach nicht laufen wollen, obwohl man alles richtig gemacht hat (oder besser glaubt es richtig gemacht zu haben).

Grüße
Yosh

Ja die CSV Datei hat tatsächlich kein BOM. Was aber bei UTF-8 nicht wirklich ein Problem darstellen sollte. Da die Byte Order bei UTF-8 immer die gleiche ist.
siehe auch: http://unicode.org/unicode/faq/utf_bom.html

Die meisten UTF-8 Dateien die ich bis jetzt gesehen habe kommen auch ohne BOM aus.

Aber ich meine ich habe auch schon mal so ein Problem mit Excel gehabt. Mein Excel XP kann so direkt keine UTF-8 .csv Dateien öffnen (Da kommt zumindestens Mist raus). Aber wenn man die Datei in .txt umbenennt dann fragt Excel zumindestens nach, wie er die Datei importieren soll. Hier kann man auch das Encoding festlegen und das "," als Trennzeichen angeben.
Aber auch hier kann mein Excel kein UTF-8, aber das sollte bei Excel 2003 behoben sein.
Wenn es das ist was ich vermute, dann sollte das eigentlich mit einem PreparedStatement und setString(pos,string) richtig escaped werden und dann kein Sicherheitsproblem mehr darstellen.
Ich habe das gleiche Problem.
ganz klar das Sushi-Introduction Video

http://www.youtube.com/watch?v=GYlcgq-U5js
Hallo allerseits,

für die gemeinsame Entwicklung ist es immer gut ein Versionverwaltung zu besitzen. Für diesen Zweck benutzen wir Subversion. Wer nicht weiss was das ist findet in der Wikipedia ein guten Einstieg: http://de.wikipedia.org/wiki/Subversion_%28Software%29
Als Windows Client empfehle ich TortoiseSVN: http://tortoisesvn.net/
Für Eclipse Subclipse: http://subclipse.tigris.org/

Der Zugriff ist nicht öffentlich! Wer also Zugriff haben möchte sollte sich melden. Ich denke aber wir sollten beim Workshop nochmal alles genau koordinieren. (Lese und Schreiberechte)

Im Moment gibt es 2 verschiedene Repositories. Einmal für die Weboberfläche und einmal für die Datenbankentwicklung.

Prinzipiell ist es möglich auch weitere Repositories einzurichten. Zum Austausch von Office Dateien etc.. (mir würde noch eins für den Verein einfallen?) Der Bedarf an neuen Repos sollte hier Angemeldet und Diskutiert werden damit kein Wildwuchs entsteht.
Ich stimme Dan vor allem in der Sichtweise der Datenstruktur zu. Es ist nicht wirklich nötig sich den XML Overhead in der DB anzutun. Siehe auch DB Struktur Diskussion.
Mir ist ein SVN lieber, denn der Umgang mit binärdateien ist um einiges effizienter.
Ich könnte bei uns über die Uni eins zur Verfügung stellen. Allerdings ohne Bugtracking.
Der Dump ist super.

Kannst Du mir vielleicht noch die anderen Index-Tabellen und wie Du die erzeugst irgendwie zukommen lassen. Dazu wäre dann noch die SQL Anfragen, die immer asugeführt werden (z.B. bei der Suche) praktisch.

Dann kann ich die Daten schon mal in eine andere Form bringen (alles per Mysql SQL script soweit möglich) und kann mir Gedanken über Indexe auf der Struktur machen sowie schon mal ein bisschen Performance-profiling.

Vielleicht kann man ja mal nen Sourcen Verwaltungssystem andenken wie Subversion, dann kann man sowas auch versionssicher speichern und effizient teilen.
Ohne den Vorschlag davor müsste das Schema aber eher so aussehen: (Siehe Bild)

Weiterhin ist mir noch nix dazu eingefallen wie man folgendes in die DB Packen kann ohne dass man es total zerstückelt:
<trans>
das eigene <nomen genus="n">Schneckenhaus</nomen>
</trans>

Es geht da vor allem um das NOMEN Markup element.
 
Forum Index » Profile for yoshtec » Messages posted by yoshtec
Go to: