Ok, vielleicht war ich da etwas zu schnell. Also, die ganzen JIS-Standards sind auf Grund der Menge an encodierten (=enthaltenen) Glyphen in eine halbwegs sinnvolle Aufteilung gebracht worden, die sogenannte Ku-Ten-Form (区点), was Zeilen und Spalten in der verwandten Tabelle darstellt. Für einen Geschmack, wie das ganze aussieht, kannst Du Dir die
Registrierung von JIS X 0212:1990 bei ISO angucken. Aber bitte nicht abschrecken lassen.
JIS X 0213 hat noch zusätzlich Min (面) eingeführt, daher wird Ku-Ten (区点) zu Min-Ku-Ten (面区点). Das ist nur noch mal eine Ordnung über Ku, damit der Standard abwärts-kompatibel bleibt.
So, auf der Webseite gibt es nun einträge, die folgendermaßen lauten:
JIS X0212:1990(通称 JIS補助漢字)
H16-05 BILD→ 2 ,m28
H16-05 ist der Ku-Ten-Eintrag aus JIS X 0212:1990, wobei H bezeichnet, dass die 16 (dezimal) das Ku 区 ist und 05 Ten 点 ist. Wenn Du mir der oben verlinkten PDF vergleichst, wirst Du feststellen, dass auf Seite 03/14 in Zeile 16 Spalte 05 tatsächlich auch der abgebildete Glyph steht.
So, in Unihan_OtherMappings sind alle Mappings (=Abbildungen) auf die jeweiligen Herkunftsstandarde soweit vorhanden, eingetragen. Da Unicode eng mit JIS zusammenarbeitet, sind die meisten JIS-Glyphen auch in Unicode enthalten. Aber Achtung: Es gibt die sogenannte
Han Unification, das wird später beim anzeigen der Kanji wichtig.
So, in der der Textdatei sind folgende Einträge zu finden:
U+342C kJIS0213 2,01,18
Dieser Eintrag bedeutet: Unicode-Codepunkt U+342C hat ein Mapping nach JIS X 0213, nämlich 2 Min 01 Ku 18 Ten (2面01区18点).
Für uns interessant sind alle JIS-Einträge: kJis0, kJis1, kJIS0213. Was diese bedeuten, kann hier erfahren werden:
http://www.unicode.org/reports/tr38/ Ich habe die entsprechenden Einträge für Dich rausgesucht:
UAX #38 wrote:Property kJis0
Status Provisional
Category Other Mappings
Introduced 2.0
Delimiter space
Syntax ^[0-9]{4}$
Description The JIS X 0208-1990 mapping for this character in ku/ten form.
Property kJIS0213
Status Provisional
Category Other Mappings
Introduced 3.1.1
Delimiter space
Syntax ^[12],[0-9]{2},[0-9]{1,2}$
Description The JIS X 0213-2000 mapping for this character in min,ku,ten form.
Property kJis1
Status Provisional
Category Other Mappings
Introduced 2.0
Delimiter space
Syntax ^[0-9]{4}$
Description The JIS X 0212-1990 mapping for this character in ku/ten form.
Bemerke bitte, dass bei Syntax gleich die korrekte Syntax für einen regulären Ausdruck, der nur diese Datenform matcht, steht. Bermerke auch, dass ^ und $ Zeilenanfang resp. Zeilenende matchen, Du diese also weglassen musst, wenn sie innerhalb einer Zeile stehen.
So, jetzt im Prinzip aus Deiner Seite
http://homepage2.nifty.com/TAB01645/ohara/index_j.htm, die alle JIS-Einträge auflistet, per regulärem Ausdruck die
gesuchten JIS-Einträge rausholen.
Ebenfalls alle Einträge aus Unihan_OtherMappings rausholen, die kJis0, kJis1, kJIS0213 definiert haben (was nicht exklusiv sein muss; also es können auch mehrere dieser Properties in einer Zeile vorkommen). Das dann als Komma-getrennte Liste (comma-separated list;CSL) abspeichern (wieder mittels regulärer Ausdrücke umsortieren) und dann in einem Tabellenverarbeitungsprogramm öffnen. Jetzt nach den jeweiligen Min, Ku, Ten etc. sortieren und die gewünschten Einträge (die ja aus der Webseite extrahiert wurden) als Unicode-Codepunkt herauslesen. Das geht natürlich auch mit einem regulären Ausdruck, aber es sind auch nicht so viele und Du kannst schön nachkontrollieren.
Das ganze tippst Du dann entweder in z.B. Microsoft Word ein (dort z.B. U+342C eintippen, danach Alt + C [für convert] drücken) oder lässt es Dir in einem Text-Editor schon vorher umwandeln (siehe Liste von mir empfohlenen Editoren unten, die können das). Beachte, dass auf der Webseite für JIS X 0221 schon Unicode-Codepunkte stehen, in der Form uXXXX wobei XXXX der hexadezimale Codepunkt ist ― also z.B. einfach als u+XXXX eintippen und umwandeln lassen.
So, wenn Du das ganze darstellen willst, solltest Du drauf achten, dass Du einen japanischen Font nimmst. Die Han Unification sieht nämlich vor, dass alle Han-Symbole (also alle aus dem Chinesisch stammenden Symbole) vereint als ein Codepunkt encodiert werden und Fonts die Aufgabe haben, die Codepunkte für den jeweiligen Kontext (nämlich die Sprache, das Script etc) richtig darzustellen. Sonst lernst Du Kokuji womöglich mit einer Form, die dank Rückexport nach China in China üblich ist, oder so etwas!
Falls Du Fragen hast, meld Dich ruhig. Gute, kostenlose Texteditoren, die reguläre Ausdrücke beherrschen sind Notepad++ und jEdit. Für reguläre Ausdrücke gibt es www.regular-expressions.info. Dieser Task ist eine Bilderbuch-Aufgabe, warum reguläre Ausdrücke toll sind und warum man sich auch als Nicht-Informatiker ruhig damit beschäftigen kann
cYa,
FreakRob