FOFA爬虫大法——API的简单利用 爬虫f12
yuyutoo 2024-10-25 19:21 7 浏览 0 评论
FOFA是一款网络空间搜索引擎,它通过进行网络空间测绘,帮助研究人员或者企业迅速进行网络资产匹配,例如进行漏洞影响范围分析、应用分布统计、应用流行度等。
何为API?如果你在百度百科上搜索,你会得到如下结果:
API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
那么通俗一点来说,API是什么呢?从技术角度来说,API指的是应用程序编程接口。很多大型企业都会为自己的客户建立应用程序编程接口,或供内部使用。
今天i春秋针对爬虫FOFA里面的数据进行统计分析,即API的简单利用,希望对大家有所帮助,本文阅读用时约5分钟。
环境
描述环境为文章中所用到的所有技术以及中间件并非全部安装,可根据使用的规模进行调整使用。
语言:python2.7(必须)
模块:requests(必须)
操作系统:MacOS 10.13.4(非必须)
分布式消息队列管理:Celery(最后一节安装)
日志记录:logging(必须)
中间价:Redis(最后一节安装)/MySQL(必须)
数据库操作:pymysql(必须)/DBUtils(必须)
安装环境
# 安装requests pip isntall requests # 安装celery Mac pip install celery # 安装celery Windows pip isntall celery=3.1.25 # 安装 pymysql pip install pymysql # 安装logging pip install logging # 安装 DBUtils 数据库连接池 pip install DBUtils
注:Windows安装Celery时最好安装3.1.25版本,不然可能会有意想不到的惊喜。
FOFA API
文档:https://fofa.so/api
请求:https://fofa.so/api/v1/search/all
请求方式:GET
请求参数:
响应:
数据库设计
设计数据库存放FOFA爬虫数据,方便统计查询。
SQL语句
DROP TABLE IF EXISTS `fofa_spider`; CREATE TABLE `fofa_spider` ( `id` INT (11) NOT NULL AUTO_INCREMENT, `host` VARCHAR (255) NOT NULL, `ip` VARCHAR (255) NOT NULL, `port` VARCHAR (255) DEFAULT NULL, `protocol` VARCHAR (255) NOT NULL, `country_name` VARCHAR (255) DEFAULT NULL, `region_name` VARCHAR (255) DEFAULT NULL, `city_name` VARCHAR (255) DEFAULT NULL, `fofa_sql` text NOT NULL, `create_date` DATETIME NOT NULL, `update_date` DATETIME NOT NULL, PRIMARY KEY (`id`) ) ENGINE = INNODB DEFAULT CHARSET = utf8mb4;
数据库SQL文件:https://github.com/0nise/scripts/blob/master/fofa_spider.sql
小试牛刀
本节主要讲解可适用与一般的FOFA爬虫,如果需要大批量数据爬虫请您接着往下看。
环境
语言:python2.7
中间件:MySQL
第三方包:pymysql/requests/
场景:小规模爬虫/一般爬虫
通过查看FOFA API可以得知请求地址和参数,开局一句话功能全靠编。
请求中心
在发送大量的http请求时最好使用统一的HTTP请求中心,方便控制,代码重复利用,提高效率。
session = requests.session() # 请求头 headers = { 'Upgrade-Insecure-Requests': '1', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36' } ''' 请求中心,控制程序所有HTTP请求,如果请求发生错误进行尝试再次连接 @param url 请求连接 home.php?mod=space&uid=126298 请求响应结果 ''' def fofa_requests(url): rs_content = '' while True: try: rs = session.get(api_url, verify=False,headers=headers) rs_text = rs.text results = json.loads(rs_text) total_size = results['size'] error = results if results['error'] and 'None' not in results['error']: info = u'fofa 错误:'+results['error']+u' 休眠30s' logging.error(info) time.sleep(30) else: rs_content = results except Exception as e: logging.error(u'fofa 错误:'+str(e.message)+u' 休眠30s') traceback.print_exc() time.sleep(30) return rs_content
数据库存储
有了统一的请求中心接下来就该编写入库代码,将爬虫结果存入数据库中。
''' 批量数据存入数据库 @param results @param page_no 当前页数 @param page_total 总页数 ''' def batch_insert_db(results,page_no,page_total,fofa_sql): try: Z = [] for result in results: a = (str(result[0]),str(result[1]),str(result[2]),str(result[3]),str(result[4]),str(result[5]),str(result[6]),pymysql.escape_string(fofa_sql)) Z.append(a) sql = "INSERT IGNORE INTO fofa_spider(id,host,ip,port,protocol,country_name,region_name,city_name,fofa_sql,create_date,update_date) VALUES(DEFAULT,%s,%s,%s,%s,%s,%s,%s,%s,NOW(),NOW())" cursor.executemany(sql, Z) connection.commit() logging.info(u'存入数据库ok,总数量为:'+str(len(Z))+u', page--> '+str(page_no)+'/'+str(page_total)) except Exception as e: logging.error(u"存入数据库错误,错误信息:"+e.message) traceback.print_exc()
核心业务代码
可以存入数据库中就该写核心的函数逻辑函数,输入参数仅为FOFA检索语句。
''' fofa 爬虫主函数 @param fofa_sql fofa查询语句 ''' def main(fofa_sql): base64_str = base64.b64encode(fofa_sql) fields_str = ','.join(fields) api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_start)+'&qbase64='+base64_str rs = fofa_requests(api_url) total_size = rs['size'] # 计算页数 page_end = total_size / page_size + 1 if total_size % page_size != 0 else total_size / page_size # 存入u 数据库 batch_insert_db(rs['results'],page_start,page_end,fofa_sql) for page_no in range(1,page_end+1): api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_no)+'&qbase64='+base64_str batch_insert_db(rs['results'],page_start,page_end,fofa_sql)
程序运行结果:
完整代码地址:
https://github.com/0nise/scripts/blob/master/fofa_spider.py
注:运行脚本之前先配置相关配置信息(数据库/FOFA信息)
进阶
问题
针对一般的数据爬虫,上述方法可以完美适应。但如果需要爬虫的是为千万级别规模的数据,上述方法就不适用了,解决方案一般有多线程/多进程/协程等。
思路
针对大规模数据爬虫,很多人想到的是多线程/多进程/协程等方案,但是这些方案的可扩展并不是很强,如果需要调整工具需要停止程序修改程序等,这里我是使用生产者和消费的思路来处理。只需要对上述的代码做轻微修改就可以完美的适应大规模数据爬虫,这里我使用redis+celery的方式来实现。
Redis
Redis是一款开源的、高性能的键-值存储(key-value store)。它常被称作是一款数据结构服务器(data structure server)。
Redis的键值可以包括字符串(strings)类型,同时它还包括哈希(hashes)、列表(lists)、集合(sets)和 有序集合(sorted sets)等数据类型。 对于这些数据类型,你可以执行原子操作。例如:对字符串进行附加操作(append);递增哈希中的值;向列表中增加元素;计算集合的交集、并集与差集等。
为了获得优异的性能,Redis采用了内存中(in-memory)数据集(dataset)的方式。同时,Redis支持数据的持久化,你可以每隔一段时间将数据集转存到磁盘上(snapshot),或者在日志尾部追加每一条操作命令(append only file,aof)。
Redis同样支持主从复制(master-slave replication),并且具有非常快速的非阻塞首次同步( non-blocking first synchronization)、网络断开自动重连等功能。同时Redis还具有其它一些特性,其中包括简单的事物支持、发布订阅 ( pub/sub)、管道(pipeline)和虚拟内存(vm)等 。
Redis具有丰富的客户端,支持现阶段流行的大多数编程语言。
celery
简介
Celery(芹菜)是一个简单、灵活且可靠的,处理大量消息的分布式系统,并且提供维护这样一个系统的必需工具。
任务队列
任务队列是一种在线程或机器间分发任务的机制。
消息队列
消息队列的输入是工作的一个单元,称为任务,独立的职程(Worker)进程持续监视队列中是否有需要处理的新任务。
Celery 用消息通信,通常使用中间人(Broker)在客户端和职程间斡旋。这个过程从客户端向队列添加消息开始,之后中间人把消息派送给职程,职程对消息进行处理。如下图所示:
Celery 系统可包含多个职程和中间人,以此获得高可用性和横向扩展能力。
架构
Celery的架构由三部分组成,消息中间件(message broker),任务执行单元(worker)和任务执行结果存储(task result store)组成。
消息中间件
Celery本身不提供消息服务,但是可以方便的和第三方提供的消息中间件集成,包括,RabbitMQ,Redis,MongoDB等,这里我先去了解RabbitMQ,Redis。
任务执行单元
Worker是Celery提供的任务执行的单元,worker并发的运行在分布式的系统节点中。
任务结果存储
Task result store用来存储Worker执行的任务的结果,Celery支持以不同方式存储任务的结果,包括Redis,MongoDB,Django ORM,AMQP等,这里我先不去看它是如何存储的,就先选用Redis来存储任务执行结果。
修改
添加celery配置信息
''' Celery ''' from celery import platforms,Celery platforms.C_FORCE_ROOT = True # Redis连接地址,如果为本机不需要做修改 broker = 'redis://127.0.0.1:6379/0' app = Celery('fofa_spider',broker=broker)
添加核心函数
''' celery 爬虫 @param api_url 爬虫URL @param fofa_sql FOFA语句 ''' @app.task def celery_spider(api_url,fofa_sql): rs = fofa_requests(api_url) batch_insert_db(rs['results'],fofa_sql)
修改业务逻辑代码
''' fofa 爬虫主函数 @param fofa_sql fofa查询语句 ''' def main(fofa_sql): base64_str = base64.b64encode(fofa_sql) fields_str = ','.join(fields) api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_start)+'&qbase64='+base64_str rs = fofa_requests(api_url) total_size = rs['size'] # 计算页数 page_end = total_size / page_size + 1 if total_size % page_size != 0 else total_size / page_size # 存入数据库 batch_insert_db(rs['results'],fofa_sql) for page_no in range(1,page_end+1): api_url = 'http://fofa.so/api/v1/search/all?email='+fofa_name+'&key='+fofa_key+'&fields='+fields_str+'&size='+str(page_size)+'&page='+str(page_no)+'&qbase64='+base64_str logging.info('send task -->'+api_url) celery_spider.delay(api_url,fofa_sql)
完整代码地址:
https://github.com/0nise/scripts/blob/master/fofa_spider_ext.py
运行
运行python fofa_spider_ext.py发送需要爬虫的任务信息
运行celery -A fofa_spider_ext worker -l info进行消费爬虫
运行成功
数据库信息
相关推荐
- 12、高阶组件:魔法增幅器——React 19 HOC模式
-
一、魔法增幅器的本质"高阶组件是魔法师用咒语叠加的炼金术,"霍格沃茨魔咒研究院院长凝视着发光的增幅器,"通过函数式能量场的嵌套,让基础组件获得预言家日报式的逻辑继承!"...
- 深入理解nodejs的异步IO与事件模块机制
-
一、node为什么要使用异步I/O异步最先诞生于操作系统的底层,在底层系统中,异步通过信号量、消息等方式有广泛的应用。但在大多数高级编程语言中,异步并不多见,这是因为编写异步的程序不符合人习惯的思维逻...
- 前端时间同步利器:React + useEffect 实现高性能动态时钟
-
前言在你奋笔疾敲代码的瞬间,是不是突然一低头,发现时间像偷偷跑路的变量,一眨眼就从上午飘到下午?饭没吃、会没开、工位也快被前端猫霸占了。仿佛你写的不是代码,而是“时间穿梭机”。别慌,咱们今天就来用R...
- JavaScript 异步编程指南 - 聊聊 Node.js 中的事件循环
-
作者:五月君来源:编程界|事件循环是一种控制应用程序的运行机制,在不同的运行时环境有不同的实现,上一节讲了浏览器中的事件循环,它们有很多相似的地方,也有着各自的特点,本节讨论下Node.js中...
- 10个Vue开发技巧「实践」
-
作者:WahFung转发链接:https://juejin.im/post/5e8a9b1ae51d45470720bdfa路由参数解耦一般在组件内使用路由参数,大多数人会这样做:...
- 通过番计时器实例学习 React 生命周期函数 componentDidMount
-
大家好,今天我们将通过一个实例——番茄计时器,学习下如何使用函数生命周期的一个重要函数componentDidMount():componentDidMount(),在组件加载完成,render之后...
- 前端必看!10 个 Vue3 救命技巧,解决你 90% 的开发难题?
-
写Vue3项目时,是不是总被数据更新延迟、组件间传值混乱、页面加载缓慢这些问题折磨得头秃?别担心!作为摸爬滚打多年的老前端,今天掏出压箱底的10个实战技巧,从性能优化到复杂逻辑处理,每一个都能...
- 如何用2 KB代码实现3D赛车游戏?2kPlus Jam大赛了解一下
-
选自frankforce作者:Frank机器之心编译参与:王子嘉、GeekAI控制复杂度一直是软件开发的核心问题之一,一代代的计算机从业者纷纷贡献着自己的智慧,试图降低程序的计算复杂度。然而,将一款...
- 证明你访问的网站是你想访问的,Safari 真的需要
-
安全研究员在Safari上找到了一个新漏洞,能让网站在浏览器的地址栏内将自己伪装成另一个网站——得益于Safari地址栏的“智能缩略”功能。在Deusen最近公开的攻击演示(PoC,P...
- 抓狂!TS 组件性能拉胯到崩溃?4 个绝杀技巧逆风翻盘!
-
前端兄弟姐妹们五一假期快乐,咱们谁还没被TypeScript组件的性能问题折磨过?页面加载转圈圈,点击按钮没反应,代码改了一轮又一轮,性能却还是原地踏步,分分钟想砸电脑!别慌,今天这4个绝杀技...
- 让小球做圆周运动,你有几种办法?
-
最近在阅读外国技术文章中无意中发现了一个神奇的CSS属性motion-path,它可以让Dom元素可以按照自定义的路径移动。又想起了很久之前参加校招面试的时候,面试官问了我一个问题“能不能不借助库实现...
- 前端基础进阶(十四):深入核心,详解事件循环机制
-
EventLoopJavaScript的学习零散而庞杂,很多时候我们学到了一些东西,但是却没办法感受到进步!甚至过了不久,就把学到的东西给忘了。为了解决自己的这个困扰,在学习的过程中,我一直在试图寻...
- 从0搭建一个WebRTC,实现多房间多对多通话,并实现屏幕录制
-
这篇文章开始会实现一个一对一WebRTC和多对多的WebRTC,以及基于屏幕共享的录制。本篇会实现信令和前端部分,信令使用fastity来搭建,前端部分使用Vue3来实现。为什么要使用WebRTCWe...
- Vue2 开发卡壳?这 10 个实战技巧专治各种不服
-
干前端开发的兄弟,谁还没被Vue2折腾过?数据不更新、组件通信乱成麻、性能差到想砸电脑……这些痛点,我都懂!今天直接甩出10个超实用的实战技巧,每一个都是从项目“血坑”里爬出来总结的,专...
你 发表评论:
欢迎- 一周热门
-
-
前端面试:iframe 的优缺点? iframe有那些缺点
-
带斜线的表头制作好了,如何填充内容?这几种方法你更喜欢哪个?
-
漫学笔记之PHP.ini常用的配置信息
-
其实模版网站在开发工作中很重要,推荐几个参考站给大家
-
推荐7个模板代码和其他游戏源码下载的网址
-
[干货] JAVA - JVM - 2 内存两分 [干货]+java+-+jvm+-+2+内存两分吗
-
正在学习使用python搭建自动化测试框架?这个系统包你可能会用到
-
织梦(Dedecms)建站教程 织梦建站详细步骤
-
【开源分享】2024PHP在线客服系统源码(搭建教程+终身使用)
-
2024PHP在线客服系统源码+完全开源 带详细搭建教程
-
- 最近发表
-
- 12、高阶组件:魔法增幅器——React 19 HOC模式
- 深入理解nodejs的异步IO与事件模块机制
- 前端时间同步利器:React + useEffect 实现高性能动态时钟
- JavaScript 异步编程指南 - 聊聊 Node.js 中的事件循环
- 10个Vue开发技巧「实践」
- 通过番计时器实例学习 React 生命周期函数 componentDidMount
- SRE监控四大黄金指标,任何一个有异常都会是灾难……
- 前端必看!10 个 Vue3 救命技巧,解决你 90% 的开发难题?
- 如何用2 KB代码实现3D赛车游戏?2kPlus Jam大赛了解一下
- 证明你访问的网站是你想访问的,Safari 真的需要
- 标签列表
-
- mybatis plus (70)
- scheduledtask (71)
- css滚动条 (60)
- java学生成绩管理系统 (59)
- 结构体数组 (69)
- databasemetadata (64)
- javastatic (68)
- jsp实用教程 (53)
- fontawesome (57)
- widget开发 (57)
- vb net教程 (62)
- hibernate 教程 (63)
- case语句 (57)
- svn连接 (74)
- directoryindex (69)
- session timeout (58)
- textbox换行 (67)
- extension_dir (64)
- linearlayout (58)
- vba高级教程 (75)
- iframe用法 (58)
- sqlparameter (59)
- trim函数 (59)
- flex布局 (63)
- contextloaderlistener (56)