Токенизация японской струны и преобразование в хирагану

Question

Токенизация японской струны и преобразование в хирагану

Я использую строковый токенизатор и API-интерфейсы преобразования для преобразования символов кандзи в хирагану.
Код в запросе (Что заменяет устаревшие API-интерфейсы Morpheme для анализа языка анализа?) преобразует большинство символов кандзи в хирагану, но эти API не могут преобразовать слово кандзи, имеющее 3-4 символа.
лайк-

а) 現人神 переводится на латынь — ‘gen ren shen’, а на хирагана — ‘げんじんしん’
в то время как это должно быть — на латыни — ‘Arahitogami’ и на хирагана- ‘あらひとがみ’

б) 安本丹 переводится на латынь — «бен дан», а на хирагана — «やすもとまこと»
в то время как в латинском — «Ясумото макото» и в хирагане — «あんぽんたん»

Моя основная цель — получить рубиновый текст для данного японского текста. Я не могу использовать фреймворк для анализа lang, так как он недоступен в 64-битной среде.

Какие-либо предложения? Существуют ли другие API для выполнения такого преобразования строк?

1

c++cjk macos objective-c tokenize

Решение

Другие решения

Источник

Accepted Answer

Так что в обоих случаях ваш API использует onyomi, но не должен. Так что я предполагаю, что он только догадывается «3 или более символов? Onyomi должно быть более подходящим в большинстве случаев, поэтому я использую его». Похоже, для вашей задачи нужен настоящий словарь, который вы можете скачать.

Имена (для b) ) все еще должна быть проблема, хотя. Я не понимаю, как компьютер может получить правильное имя от кандзи, так как даже коренные японцы иногда терпят неудачу в этом. jisho.org даже не нашел ни одного имени для 安本丹.

(Кстати, ты перепутал свою хирагану в b)и латинский для «あんぽんたん». Я не могу писать комментарии с моим представителем, поэтому я оставляю это здесь)

0