1
在推上看到的,算一个可搜集的tips吧,原理是利用archive自己抓取的历史页面引用源,筛选去重即可。
web.archive.org互联网档案馆(Internet Archive)是一家以普及利用所有知识为目标的非营利性数字图书馆。它提供永久存储和免费的公共访问的数字化材料信息集合,其中包括:网站、音乐、运动图像、以及近300万册公共领域书籍。它让公众上传和下载数字材料到其数据集群,但其大部分数据是靠其网络爬虫自动收集。它的Web归档文件系统Wayback机器包含了超过1500亿以上的网页存档。它还负责监督世界上最大的图书数字化项目。
命令 :
curl -s "http://web.archive.org/cdx/search/cdx?url=*.qq.com/*&output=text&fl=src&collapse=urlkey" |sort| sed -e 's_https*://__' -e "s/\/.*//" -e 's/:.*//' -e 's/^www\.//' | sort -u
tips 2
利用证书查询子域名,crt.sh这个工具可以按通配符域名查询所有证书的详情。
crt.sh is a web interface to a distributed database called the certificate transparency logs.
curl 'https://crt.sh/?q=%.example.com&output=json' | jq '.name_value' | sed 's/\"//g' | sed 's/\*\.//g' | sort -u
如果没有jq命令就这样
curl -s "https://crt.sh/?q=%.example.com&output=json" | grep -Po '"name_value":.*?[^\\]",' | cut -d\" -f4 | sed 's/\*\.//g' | sort -u