У меня есть около 7 тыс. Файлов, написанных на персидском языке со словом Microsoft в doc/docx
формат. Я хочу преобразовать их всех в txt
форматировать без потери любого из них для веб-приложения php. Я знаю много тем с Converting doc to txt
название, но никто из них не решил мою проблему. Есть идеи, как мне это сделать?
Вот ссылка на сайт к одному из этих файлов.
Поскольку вы не смогли найти такую маленькую утилиту, я создал ее:
https://github.com/edi9999/docx2txt
установить и использовать:
npm install docx2txt -g
docx2txt input.docx
Тем не менее, это не будет ставить пробелы между абзацами.
Может быть, вы могли бы использовать Pandoc для этого тоже:
pandoc input.docx -o output.txt
(Это одно из решений, но оно может быть лучше сделано программно или с помощью конвертера пакетных файлов.)
Word может конвертировать файлы. Вам нужен макрос vba, который сохранит файл как текст UTF-8 и закроет его. Затем вы можете использовать пакетный файл, как показано ниже, чтобы открыть каждый файл и запустить макрос (например, MacroName) для него. (Убедитесь, что безопасность слова установлена так, чтобы макросы могли запускаться без запроса.)
Эта пакетная команда выполняется для каждого файла doc и docx в текущем каталоге и подкаталогах. Вам нужно заменить путь к Word.
@echo off
for /r %%A in (*.doc*) do call "C:\Program Files (x86)\Microsoft Office\Office14\winword.exe" /q "%%A" /mMacroName