所以,可以直接针对这样的请求,return 403状态码。
基于$http_user_agent的访问控制(反爬虫)
user_agent可以简单理解成浏览器标识,包括一些蜘蛛爬虫都可以通过user_agent来辨识。假如观察访问日志,发现一些搜索引擎的蜘蛛对网站访问特别频繁,它们并不友好。为了减少服务器的压力,其实可以把除主流搜索引擎蜘蛛外的其他蜘蛛爬虫全部封掉。
示例
if ($user_agent ~ 'YisouSpider|MJ12bot/v1.4.2|YoudaoBot|Tomato')
{
return 403;
}
说明:user_agent包含以上关键词的请求,全部返回403状态码。
测试:
1. curl -A "123YisouSpider1.0"
2. curl -A "MJ12bot/v1.4.1"
基于$http_referer的访问控制
$http_referer除了可以实现防盗链的功能外,还可以做一些特殊的需求。
比如:
网站被黑挂马,搜索引擎收录的网页是有问题的,当通过搜索引擎点击到网站时,却显示一个博彩网站。
由于查找木马需要时间,不能马上解决,为了不影响用户体验,可以针对此类请求做一个特殊操作。
比如,可以把从百度访问的链接直接返回404状态码,或者返回一段html代码。
示例
if ($http_referer ~ 'baidu.com')
{
return 404;
}
或者
if ($http_referer ~ 'baidu.com')
{
return 200 "<html><script>window.location.href='//$host$request_uri';</script></html>";
}
Nginx参数优化
Nginx作为高性能web服务器,即使不特意调整配置参数也可以处理大量的并发请求。当然,配置调优会使Nginx性能更加强悍,配置参数需要结合服务器硬件性能等做参考。
worker进程优化
worker_processes num;
该参数表示启动几个工作进程,建议和本机CPU核数保持一致,每一核CPU处理一个进程,num表示数字。
worker_rlimit_nofile
它表示Nginx最大可用的文件描述符个数,需要配合系统的最大描述符,建议设置为102400。
还需要在系统里执行ulimit -n 102400才可以。
也可以直接修改配置文件/etc/security/limits.conf修改
增加:
#* soft nofile 655350 (去掉前面的#)
#* hard nofile 655350 (去掉前面的#)
worker_connections
该参数用来配置每个Nginx worker进程最大处理的连接数,
这个参数也决定了该Nginx服务器最多能处理多少客户端请求(worker_processes * worker_connections)
建议把该参数设置为10240,不建议太大。
http/tcp连接数优化
use epoll
使用epoll模式的事件驱动模型,该模型为Linux系统下最优方式。








