Я пытаюсь определить количество строк текста без делает OCR. Я хочу обойти OCR и дать пользователю ошибку, если он дал слишком много строк текста для обработки (это займет слишком много времени, и это не тот тип ввода, который должен быть предоставлен). В идеале я хотел бы помочь сделать это в Python, но если есть какие-либо примеры C ++, которые делают это, я могу их адаптировать.
Вот функции API, с которыми я могу работать: http://zdenop.github.io/tesseract-doc/group___advanced_a_p_i.html
Я могу использовать эти функции, но я не знаю способа работы с объектами BLOCK_LIST, ETEXT_DESC или Boxa в python, кроме как передавать их из одного вызова API в другой.
Любая помощь будет принята с благодарностью!
Возможно, это не лучший способ, но он работает всего за несколько секунд и позволяет мне узнать, когда мне следует отменить OCR из-за более продолжительного, чем ожидалось, выполнения, основываясь на количестве найденных символов, при условии, что я поместил операцию OCR в свой собственный поток, который может быть убит. Вы также можете найти количество строк (RIL_TEXTLINE), но если у вас несколько столбцов, в результате вы получите намного больше строк.
import tesseract
import cv2.cv as cv
api = tesseract.TessBaseAPI()
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO_OSD)
# Load image
img_data = cv2.imread('file.jpg')
image = cv.CreateImageHeader((width1,height1), cv.IPL_DEPTH_8U, channel1)
cv.SetData(image, img_data.tostring(),img_data.dtype.itemsize * channel1 * (width1))
tesseract.SetCvImage(image,api)
# Check number of chars
chars_iterator = api.AnalyseLayout()
num_chars = 1
while chars_iterator.Next(tesseract.RIL_SYMBOL) is True: num_chars += 1
# Break of there are too many chars
if num_chars > 1000:
print "Too many chars!"break
# Reset api to delete previous layout iterator
api.Clear()
tesseract.SetCvImage(image,api)
# Do real OCR, and put this in its own thread if you want to kill it when it takes too long
result_xml = api.GetHOCRText(1)
print api.GetUTF8Text()