Допустим, у меня есть сайт WordPress со множеством постов в блоге. Я обнаружил, что кто-то копирует содержимое каждой страницы моего сайта и вставляет его на свой сайт. Я полагал, что он не делает это вручную, поскольку сумма огромна. И я пытаюсь повторить то, что он сделал, и я обнаружил, что на самом деле мне довольно легко сделать то же самое, используя php by curl и некоторый Dom Parsing (давая мне знать имя класса, где находится полезный текст).
Могу ли я иметь какие-либо способы предотвратить это или, по крайней мере, затруднить им это в будущем? Спасибо!
Помните, что любая информация, которую вы предоставляете зрителям вашего сайта, всегда восстановлено программно. Все веб-браузеры подключаются к веб-серверу и запрашивают информацию по HTTP.
Вы можете попытаться заблокировать пользовательский агент любого программного обеспечения, которое он использует (если он вообще предоставляет пользовательский агент), но это, вероятно, будет напрасным. Ваши сообщения в блоге открыты для публики, потому что вы намереваетесь их прочитать. Как только эта информация будет на стороне клиента, вы больше не сможете ее контролировать.
Поскольку браузеры — это просто машины, загружающие ваш контент, чтобы показать его пользователю, на самом деле вы ничего не можете сделать, чтобы полностью предотвратить это.
Есть вещи, которые вы можете сделать, чтобы сделать это более сложным, но они также увеличивают риск того, что у ваших обычных читателей возникнут некоторые проблемы.
Вот некоторые идеи, которые я видел в прошлом:
Изображения: не подходит для полных статей, но по-прежнему популярно для таких вещей, как адреса электронной почты: не помещайте текст, но некоторые изображения текста.
опубликовать какую-нибудь зашифрованную версию, которая затем расшифровывается с помощью javascript. Если кто-то извлекает содержимое с помощью curl или подобного, он не выполняет javascript и получает только мусор.
Мутирующие изображения. Часто эти копируемые кошки получают изображения и другие носители из оригинального источника. Вы можете использовать реферер на своем сервере для показа различных изображений, например, изображение с сообщением «Этот контент был украден из …»
Наймите адвоката и подайте в суд на них. Это может быть сложно, особенно когда речь идет о международном праве, но я видел, как это было сделано успешно.
Если пользователь, удаляющий ваш сайт, не выполняет большую настройку с помощью cURL, то вы можете использовать синтаксический анализ строки пользовательского агента, чтобы обнаружить пользователя cURL и выбросить 404 или выполнить любой другой вид обработки, который вы хотите выполнить. (Дополнительная информация: http://www.useragentstring.com/pages/curl/)
Имейте в виду, однако, что cURL позволяет обрабатывать запросы и позволяет подделывать ваш пользовательский агент и большинство других деталей веб-запроса, чтобы он стал неотличимым от обычного веб-трафика.
Кроме этого, вы можете заблокировать IP-адрес конкретного пользователя, но это очень конкретное исправление, которое не учитывает более широкую озабоченность любого пользователя, удаляющего контент.