Токенизация японской струны и преобразование в хирагану

Я использую строковый токенизатор и API-интерфейсы преобразования для преобразования символов кандзи в хирагану.
Код в запросе (Что заменяет устаревшие API-интерфейсы Morpheme для анализа языка анализа?) преобразует большинство символов кандзи в хирагану, но эти API не могут преобразовать слово кандзи, имеющее 3-4 символа.
лайк-

а) 現 人 神 переводится на латынь — ‘gen ren shen’, а на хирагана — ‘げ ん じ ん し ん’
в то время как это должно быть — на латыни — ‘Arahitogami’ и на хирагана- ‘あ ら ひ と が み’

б) 安 本 丹 переводится на латынь — «бен дан», а на хирагана — «や す も と ま こ と»
в то время как в латинском — «Ясумото макото» и в хирагане — «あ ん ぽ ん た ん»

Моя основная цель — получить рубиновый текст для данного японского текста. Я не могу использовать фреймворк для анализа lang, так как он недоступен в 64-битной среде.

Какие-либо предложения? Существуют ли другие API для выполнения такого преобразования строк?

1

Решение

Так что в обоих случаях ваш API использует onyomi, но не должен. Так что я предполагаю, что он только догадывается «3 или более символов? Onyomi должно быть более подходящим в большинстве случаев, поэтому я использую его». Похоже, для вашей задачи нужен настоящий словарь, который вы можете скачать.

Имена (для b) ) все еще должна быть проблема, хотя. Я не понимаю, как компьютер может получить правильное имя от кандзи, так как даже коренные японцы иногда терпят неудачу в этом. jisho.org даже не нашел ни одного имени для 安 本 丹.

(Кстати, ты перепутал свою хирагану в b)и латинский для «あ ん ぽ ん た ん». Я не могу писать комментарии с моим представителем, поэтому я оставляю это здесь)

0

Другие решения


По вопросам рекламы [email protected]