Это просто умозрительная идея для клиента, у которого много PDF-файлов.
В своих часто задаваемых вопросах Алголия говорит, что для поиска файлов PDF сначала нужно извлечь текст из файла. Как бы вы пошли об этом?
Я предполагаю, что система будет работать:
Это должна быть автоматизированная система, так как клиент не должен указывать это для индексации.
Он будет построен на PHP, вероятно, Laravel работает на Ubuntu.
Какое программное обеспечение / служба может извлекать текст из PDF-файлов, и нужно ли какое-либо волшебство, чтобы связать это с PDF-файлом?
Я также рад иметь предложения о других поисковых службах, которые могут справиться с этим.
К счастью, извлечение текста из PDF-файлов является предметом, который освещался несколько раз. В командной строке вы можете использовать pdftotext
(доступно на Linux или Mac) или в вашем коде библиотека как Apache Tika
(для которого вы можете найти PHP обертка).
Чтобы избежать слишком большого шума в ваших записях, я бы порекомендовал вам разделить текст и создать одну запись для каждого абзаца. Затем вы можете использовать Алголию distinct
особенность для дедупликации результатов.
У вас уже должны быть где-то ссылки на ваши файлы, просто сохраните их в своих записях, а затем в своем интерфейсе вы легко сможете создавать ссылки на них, используя, например, autocomplete.js или же instantsearch.js .
Других решений пока нет …