При исследовании целей часто попадается множество PDF-документов, которые могут содержать конфиденциальную информацию. Ручная проверка всех этих файлов занимает много времени, поэтому стоит попробовать автоматизировать этот процесс.
- Используйте gau или другой инструмент для сбора ссылок из репозиториев, таких как wayback, urlscan и т.д.
- Отфильтруйте конечные точки по расширению
.pdf
с помощью Grep. - Проверьте с httpx, что URL активен и возвращает статус 200 OK.
- Скачайте все активные PDF-файлы с помощью
curl
. - Конвертируйте PDF в текст. Для этого можно использовать утилиту pdftotext, которая переводит PDF в текст. Установить её можно так:
sh sudo apt install poppler-utils
- Используйте Grep для поиска чувствительных слов, таких как «
internal use only
» или «confidential
» и т.д.
В итоге команда будет выглядеть так:
sh for i in $(echo "gov.uk" | gau --subs --threads 16 | grep -E -o 'https?://[^[:space:]]+\.pdf' | httpx -silent -mc 200); do if curl -k -s $i | pdftotext -q - - | grep -Eaiq 'confidential|internal use only'; then echo $i | tee -a output.txt; fi; done
Эта команда сканирует веб-сайт «gov.uk
» и его поддомены в поиске URL-ов с PDF-файлами. Затем она проверяет каждый PDF-файл на наличие строк «confidential
» или «internal use only
» и записывает соответствующие URL-ы в файл «output.txt
«.
Используйте своё творческое мышление для изменения этого скрипта по своему усмотрению. Например, попробуйте использовать katana вместо gau или искать другие чувствительные слова, а также проверять файлы с другими расширениями. Подходите к задаче творчески, чтобы добиться наилучших результатов!