【生产问题】分享一次Nginx正向代理的需求


最近接到了一个需求:通过 Nginx 代理把现网一个自研代理程序给替换掉,感觉有点意思,也有所收益,简单分享下。

需求背景

部门的生产环境异常复杂,有部分第三方引入的系统位于特殊网络隔离区域,请求这些系统需要通过 2 层网络代理,如图所示:

12

中心源系统请求目标系统 API 的形式各异,我简单收集了下,至少有如下 3 种:

1
2
3
4
5
curl --digest -u admin:xxxxxx 'http://10.xxx.xxx.xxx:8080/foo/boo?Id=123456789&vId=1234' 
 
curl -d '{"eventId": 20171116, "timestamp": 123456, "caller": "XXP", "version": "1.0", "interface": {"interfaceName": "XXPVC", "para": {"detail": {"owner": "xxxxxxx"}}}, "password": "xxxxxx", "callee": "XXPVC"}' http://10.x.x.x:8080/t/api
 
curl -X PUT -H "Content-Type: application/json" -d'{"vp":{"id":"ab27adc8-xxx-xxxx-a732-fbde162ebdd3"}}' "http://10.x.x.x/v1.0/peers/show_connectioninfos"

目前开发同事是用 lighthttp 二次开发实现了这个需求(猜测用到了一堆判断和转发逻辑),存在一定的后期维护工作量,而且这个 GG 已经转岗去其他部门了,现任开发 GG 就想直接通过 Nginx 代理来实现,淘汰这个组件,因此就将这个需求丢给了我这个运维了。

需求分析

拿到需求后,我分析了下,应该需要使用正向代理来实现,我们来看下普通的一级正向代理写法:

1
2
3
4
5
6
server {  
    listen  8080;  
    location / {  
        proxy_pass http://$host$request_uri; 
    }  
}

这个规则的意思是将所有请求都代理到请求对应的主机。这个在内网正向代理上网的时候会用到,这时候用户只需要将你提供的代理设置为 http_proxy,就可以访问到直接访问不到的站点。

看起来好像可以满足需求了,But…实际需求是要经过 2 层代理,那第一层代理的$host 必须是固定为第二层代理的地址了!而且 Nginx 也不支持类似 http_proxy 的设置,所以照搬正向代理是行不通的。

最终解决

既然正向代理涉及到自动提取目标主机、端口以及请求的特性,那我们就自己设计一个请求方式,方便使用 Nginx 自带规则来提取并自动代理。

我和开发约定了一个请求方式(之前也用了类似约定),方便 Nginx 来提取变量并自动代理:

1
curl --digest -u admin:xxxxx 'http://10.x.x.x/?proxy_schema=http&proxy_host=x.x.x.x:8080&proxy_url=/XXX/api?tId=123456&fooid=1234'

将真正需要请求的 API 拆成: ?schema=http&host=主机:端口&proxy_url=请求路径及参数,然后请求到第一级 Nginx 代理服务,一级代理将请求原样传给 Nginx 二级代理,然后在二级代理上通过正则提取 schema、host 和 proxy_url,并代理请求,即可满足需求。

Nginx 一级代理规则(反向代理):反向代理到 2 个二级代理

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
upstream proxy_svr { 
    server 192.168.2.100:8080; 
}
server {  
    listen  8080;  
    access_log /data/wwwlogs/access.log access;
    location / {
        proxy_pass http://proxy_svr$request_uri;
   } 
 }

Nginx 二级代理规则(正向代理):自动提取 url 里面约定的协议、目标主机和 url 并代理

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
server {  
    listen  8080;  
    #resolver 223.5.5.5; # 如果被代理的地址存在域名,需要加一个 dns 配置,否则会 502,报错信息为:no resolver defined to resolve xxx.com
    access_log /data/wwwlogs/access.log access;
    set $proxy_schema 'http';
    set $proxy_host '';
    set $proxy_url '';
    # 提取请求中的 schema 值:
    if ( $request_uri ~ (proxy_schema=([^&]+))){
        set $proxy_schema $2;
    }
    # 提取请求中的 host 值:
    if ( $request_uri ~ (proxy_host=([^&]+))){
        set $proxy_host $2;
    }
    # 提取请求中的 proxy_url 值:
    if ( $request_uri ~ (proxy_url=(.*)$)){
        set $proxy_url $2;
    }
    # 如果没能提取到则返回 404
    if ($proxy_url = '') {
        return 404;
    }
    if ($proxy_host = '') {
        return 404;
    }
    # 将提取到的请求请求转发到提取到的主机上
    location / {
       # 其他 proxy 优化参数略..
       proxy_pass $proxy_schema://$proxy_host$proxy_url;
    }  
}

最后再套了一层负载均衡,最终生产环境的拓扑如下: