Я пытаюсь выяснить, какой символ наиболее равномерно распределен в файле. Поэтому для каждого анализируемого символа у меня есть массив, который выглядит следующим образом …
[
[10.5, 0, 0, 25.1, 0, 10.0, 0, 12.5, 12.5, 0],
[2.66, 2.33, 0, 0, 0, 10.0, 0, 10.0, 12.5, 0.5],
... and so on ...
]
Каждая строка представляет строку текста, разрезанную на десятые доли. Каждое значение представляет процент раздела, который занят рассматриваемым персонажем.
Со мной так далеко? Сейчас я пытаюсь выяснить, как придумать метрику для сравнения распределения этих символов. Например, используя это, какой символ имеет наиболее равномерное распределение по каждой строке? У меня есть такая таблица для каждого персонажа. Если бы я мог использовать эту таблицу, чтобы придумать метрику для каждого символа, я мог бы тогда просто сравнить метрику, чтобы определить наиболее равномерно распределенный символ. Эту проблему сложно даже описать, не говоря уже о ее решении. Надеюсь, это имеет смысл. Даже просто точка в правильном направлении была бы очень полезна.
После некоторого тщательного обсуждения лучшего решения и того, почему хранение разделителя не подходит (см. Комментарии к обоим), моя идея заключается в следующем:
Других решений пока нет …