Меню Закрыть

Массовый поиск конфиденциальных данных в PDF-файлах

При исследовании целей часто попадается множество PDF-документов, которые могут содержать конфиденциальную информацию. Ручная проверка всех этих файлов занимает много времени, поэтому стоит попробовать автоматизировать этот процесс.

  1. Используйте gau или другой инструмент для сбора ссылок из репозиториев, таких как wayback, urlscan и т.д.
  2. Отфильтруйте конечные точки по расширению .pdf с помощью Grep.
  3. Проверьте с httpx, что URL активен и возвращает статус 200 OK.
  4. Скачайте все активные PDF-файлы с помощью curl.
  5. Конвертируйте PDF в текст. Для этого можно использовать утилиту pdftotext, которая переводит PDF в текст. Установить её можно так: sh sudo apt install poppler-utils
  6. Используйте Grep для поиска чувствительных слов, таких как «internal use only» или «confidential» и т.д.

В итоге команда будет выглядеть так:

sh for i in $(echo "gov.uk" | gau --subs --threads 16 | grep -E -o 'https?://[^[:space:]]+\.pdf' | httpx -silent -mc 200); do if curl -k -s $i | pdftotext -q - - | grep -Eaiq 'confidential|internal use only'; then echo $i | tee -a output.txt; fi; done

Эта команда сканирует веб-сайт «gov.uk» и его поддомены в поиске URL-ов с PDF-файлами. Затем она проверяет каждый PDF-файл на наличие строк «confidential» или «internal use only» и записывает соответствующие URL-ы в файл «output.txt«.

Используйте своё творческое мышление для изменения этого скрипта по своему усмотрению. Например, попробуйте использовать katana вместо gau или искать другие чувствительные слова, а также проверять файлы с другими расширениями. Подходите к задаче творчески, чтобы добиться наилучших результатов!

error: Увы, не сегодня.