Поиск (извлечение текста) файлов PDF с помощью Algolia

Question

Поиск (извлечение текста) файлов PDF с помощью Algolia

Это просто умозрительная идея для клиента, у которого много PDF-файлов.

В своих часто задаваемых вопросах Алголия говорит, что для поиска файлов PDF сначала нужно извлечь текст из файла. Как бы вы пошли об этом?

Я предполагаю, что система будет работать:

Клиент загружает PDF через CMS
CMS вызывает некоторую услугу / программу
извлечь текст
Алголия индексирует извлеченный, и это как-то
ссылка на оригинал PDF

Это должна быть автоматизированная система, так как клиент не должен указывать это для индексации.
Он будет построен на PHP, вероятно, Laravel работает на Ubuntu.

Какое программное обеспечение / служба может извлекать текст из PDF-файлов, и нужно ли какое-либо волшебство, чтобы связать это с PDF-файлом?

Я также рад иметь предложения о других поисковых службах, которые могут справиться с этим.

3

algolia php search

Решение

Другие решения

Других решений пока нет …

Источник

Accepted Answer

К счастью, извлечение текста из PDF-файлов является предметом, который освещался несколько раз. В командной строке вы можете использовать pdftotext (доступно на Linux или Mac) или в вашем коде библиотека как Apache Tika (для которого вы можете найти PHP обертка).

Чтобы избежать слишком большого шума в ваших записях, я бы порекомендовал вам разделить текст и создать одну запись для каждого абзаца. Затем вы можете использовать Алголию distinct особенность для дедупликации результатов.

У вас уже должны быть где-то ссылки на ваши файлы, просто сохраните их в своих записях, а затем в своем интерфейсе вы легко сможете создавать ссылки на них, используя, например, autocomplete.js или же instantsearch.js .

4