http请求(GET/POST)时,url/参数编码的过程分析_浏览器发送 post 带中文参数到服务器解析过程-程序员宅基地

技术标签: php  

http请求的发出,以及编码过程

下面在chrome浏览器和postman下模拟请求,用fiddler来监控请求发出信息。

chrome游览器地址输入

 

这个路径是手动输入的,黑色线是url,黄色线是uri,绿色线是queryString。这时F12,然后我们路径按下回车

chrome地址

 

chrome监控

fiddler监控

我们关注chrome控制台和fiddler的情况,可以发现,chrome发出这个http请求的时候,对查询参数进行了编码。我们在网站(https://www.bejson.com/conver... 进行Hex转字符的操作,可以发现:中文字符被编码成16进制数,而且每个字节(byte)的16进制数前都被浏览器加上了一个%。(下图中,20E8B083这4个字节对应“调”,E4BC98这3个字节对应“优”)

浏览器编码url的风格: 到这里,可能你有点迷惑了。我来解释一下,根据URL的编码规范,浏览器会把URL中的非ASCII字符按照某种编码格式(chrome是utf-8)编码成byte数组后,转成16进制数字,然后在每个16进制数字前加上%分隔。

到现在,应该清楚了浏览器GET传参时的编码过程了。值得一提的是,在实践中,我们最糟糕也只会在GET方式的url后面携带中文参数,在servletPath(也就是?前的一段)中我们不会去用中文的,除非你自找麻烦。

具体的传输: 其实,我们还没有讲到url的传输。我们要知道,在网络世界的传输中,所有的信息都是以字节传输的(byte[]),一个http请求的所有内容都是编码成byte数组后传输的,也就是0101这样的数字。为了方便显示,fiddler中用Hex来表示。可以这么理解,上面那个url路径只是一个初步处理后的string而已,我们从fiddler中查看,

我们对Hex进行几次copy查看:

可以看出,传输过程中的Hex数组,就是我们之前监控到的真正的http请求url经过了中文utf-8编码后的路径。

http请求的接收,以及解码过程

需不需要设置解码呢?

答案是肯定的,手动设置一下肯定是非常好的。

uri/url的解码过程

下面我们以tomcat为例,当上面那一大串byte数组传输到服务器后,首先,tomcat会对uri部分进行解码,这里charset由tomcat配置文件中的<Connector URIEncoding="UTF-8"决定,不设置的话默认值为ISO-8859-1。由于域名和端口只会是英文,比如说:www.baidu.com,www.google.com;同时我们上面讲过,在uri部分我们不会去用中文,我们只会采用英文。因此,对于url这一块,无论是采用UTF-8还是ISO-8859-1解码,url这部分内容都不会乱码。到这一步,我们服务器端就解码得到了localhost:8082/article/queryByTitle

queryString的解码过程

上面,我们知道了uri/url这一块的内容解码过程。下面,我们来看看queryString这部分的解码过程。

我们在chrome中,F12查看http请求的详细信息,可以发现查询参数被作为parameters保存了下来。这里,可以告诉大家,通过GET方式发出http请求所携带的queryString以及通过POST方式发出http请求所携带的表单参数,也就是GET、POST这2种方式携带的参数,都会被作为parameters保存;在服务器端通过request.getParameter()方法可以获取到值。

下面以GET方式的queryString的解码过程来讲解。首先我们思考一下,如何才能得到原来的中文呢?当然是先把Hex数字使用UTF-8转码一次,得到浏览器初步处理的参数,如:title=JVM%20%E8%B0%83%E4%BC%98,然后再对原来非ASCII字符的部分使用UTF-8转码一次,得到最初值:title=JVM 调优。中文这一块我也没找到相关资料,我就分析一下英文的解码过程吧。

1.英文参数的情况

假设我们原有的请求并不含中文参数,比如说:title=JVMoptimize 。那么在服务器端调用request.getParameter的方法时,会先进行转码,而charset由http请求的header中的contentType决定,否则使用ISO-8859-1。要想使用contentType的charset,还需要把<Connector URIEncoding="UTF-8" useBodyEncodingForURI="true" />设置为true,注意,true只是设置queryString的解码。到这里,对Hex的解码就会采用contentType的UTF-8进行解码了,我们就可以还原得到title=JVMoptimize了,然后取到JVMoptimize这个参数值。

2.中文参数的情况

我们再来讲一讲中文参数的问题,因为在chrome中,非ASCII字符会采用UTF-8先进行一次编码;那么其实在服务器端,我们可以自己思考一下。因为如果是纯英文的参数,下图是title=JVM optimize的请求,在初步处理时,空格是Hex的%20,也就是说纯英文下%后面一定是20,%20代表了一个空格。而如果是中文参数,因为浏览器手动在每一个字节前加了%,注意,这样我们服务器端通过%和其后面的是否跟着20就可以知道这里是空格还是代表着中文参数了。

queryString解码的猜想

我们可以做出设想,在对queryString进行第一次转码之后,可能有2种基本情况:

  • 纯英文,还有空格的参数。原参数如:title=JVM optimize 。
    那么第一次转码,会得到:title=JVM%20optimize 。
  • 中文,还有空格的参数。原参数如:title=JVM 调优
    那么第一次转码。会得到:title=JVM%20%E8%B0%83%E4%BC%98

这个时候的结果就很明确了。我猜测,这时候服务器内部应该会对%进行检测,然后做出相应的处理。下面是我的猜测:

如果检测到%,那么看看其后面是否跟着20?是的话,就表示这是一个空格,将其转化(解码)为空格" " ;不是的话,代表这一块将是中文字符(或其他非ASCII字符,如日文,韩文),就把这一块连续的%剔除,再用UTF-8转码,就得到了中文字符。

上面应该是挺靠近真实情况的解释了,因为肯定对非ASCII的解码要进行2次,上面的依据也挺充足的。

其他

那么我已经对url的编码解码过程做了一个分析,要注意的点和需要设置的地方在文中已经提到了。对于网上常见的一个设置:request.setCharacterEncoding(charset),设不设置都无所谓了,它的作用和contentType是一样的。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/xiaoxinshuaiga/article/details/94188154

智能推荐

JAVA复习笔记02-程序员宅基地

文章浏览阅读122次。16、interface中的成员变量默认为public static final类型,方法只能是public(默认为public)17、内部类访问外部类成员:Outer.this.num;18、一道有趣的题目  使用内部类实现该程序。(答案附在本文末尾)interface Inter { void show();}clas..._public

智慧交通与汽车智能化构建“交通强国”-程序员宅基地

文章浏览阅读1k次。智慧交通正在成为新基建的主力军,伴随着新能源汽车和汽车融入智能制造产业链的结构性深化,智慧交通产业构架成为中国经济发展进入新常态下融入碳中和、碳达峰的绿色发展和以新基建为代表的的中国智能制..._智能交通 智慧交通 芯片

阿里云服务器在docker上部署MySQL(图文详细教程)_阿里云服务器docker安装数据库-程序员宅基地

文章浏览阅读1.4k次。阿里云服务器在docker上部署MySQL(图文详细教程)设置容器、运行容情做数据挂载、端口映射、目录映射。_阿里云服务器docker安装数据库

Openjudge:向量点积计算_python 给定两个n维向量a=(a1,a2,...,an)和b=(b1,b2,...,bn),求-程序员宅基地

文章浏览阅读1.5k次。描述在线性代数、计算几何中,向量点积是一种十分重要的运算。给定两个n维向量a=(a1,a2,…,an)和b=(b1,b2,…,bn),求点积a·b=a1b1+a2b2+…+anbn。输入第一行是一个整数n。1 <= n <= 1000。第二行包含n个整数a1,a2,…,an。第三行包含n个整数b1,b2,…,bn。相邻整数之间用单个空格隔开。输出一个整数,即两个向量的点积结果。样例输入31 4 62 1 5样例输出36n = int(input())s = li_python 给定两个n维向量a=(a1,a2,...,an)和b=(b1,b2,...,bn),求点积a·b=a1b1+a2b

Openjudge:求三个数的和_python如果三个数全部是整数,则结果也是整数。如果三个数中有小数,则结果-程序员宅基地

文章浏览阅读3.8k次。描述输入三个整数或小数,输出它们的和如果结果是整数,就保留小数点后面一位的0(用python写则不用特别处理,程序自然会如此)输入​输入三个整数或小数输出和样例输入1 2.3 4.7样例输出8.0代码:s = input().split()a = float(s[0])b = float(s[1])c = float(s[2])print(a+b+c)..._python如果三个数全部是整数,则结果也是整数。如果三个数中有小数,则结果

最简单的视音频播放示例7:SDL2播放RGB/YUV_用c语言调用sdl2播放yuv-程序员宅基地

文章浏览阅读627次。//////////////转载:雷神博客http://blog.csdn.net/leixiaohua1020/article/details/40525591/////////////本文记录SDL播放视频的技术。在这里使用的版本是SDL2。实际上SDL本身并不提供视音频播放的功能,它只是封装了视音频播放的底层API。在Windows平台下,SDL封装了Direct3D_用c语言调用sdl2播放yuv

随便推点

android,ListView_zy-2021-10-21-0119-程序员宅基地

文章浏览阅读999次。Activity页public class MainActivity extends AppCompatActivity { private ListView mlv1; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout.activity_main);_zy-2021-10-21-0119

DOMJavascript总结_javascript curtd-程序员宅基地

文章浏览阅读1.6k次。1,动态设置事件: function F1(){ alert('In F1'); } function F2{ alert(In F2); }_javascript curtd

R语言ggplot2可视化:使用ggplot2可视化散点图、使用labs参数自定义X轴的轴标签文本(customize X axis labels)_r语言中的labs()的用法-程序员宅基地

文章浏览阅读685次。R语言ggplot2可视化:使用ggplot2可视化散点图、使用labs参数自定义X轴的轴标签文本(customize X axis labels)_r语言中的labs()的用法

What is the difference between L1 and L2 regularization?_the differences between l1 snd l2-程序员宅基地

文章浏览阅读4.1k次。今天讨论班一个师姐讲到L1 norm还有L2 norm 的regularization问题,还有晚上和一个同学也讨论到这个问题,具体什么时候用L1,什么时候用L2,论文上写道一般当成分中有几个成分是principal factor的时候我们会使用L1 norm penalty,但是为什么L1会有这个效果。一个网上的讨论:http://www.quora.com/Machine-Lear_the differences between l1 snd l2

Java抽象类/抽象方法定义及其特性详解_抽象方法怎么定义-程序员宅基地

文章浏览阅读8.7k次,点赞13次,收藏40次。类的继承结构中,越往上的类越具有通用性,也就越抽象。当它抽象到一定程度,就变成概念成框架,不能再产生实例化的对象了。例如“交通工具”,就无法用它来产生一个实例。对应这一现象,Java中提供了抽象类,它只能作为父类,不能实例化。定义抽象类的作用是将一类对象的共同特点抽象出来,成为代表该类共同特性的抽象概念,其后在描述某一具体对象时,只要添加与其他子类对象的不同之处,而不需要重复类的共同特性。这样就使得程序概念层次分明,开发更高效。与抽象类紧密相连的是抽象方法一它总是用在抽象类或接口中。_抽象方法怎么定义

从海外客户端Bidding看,移动开发者应如何应对竞价模式变化?_admob竞价和瀑布的区别和文档-程序员宅基地

文章浏览阅读2.0k次。从海外客户端Bidding看,移动开发者应如何应对竞价模式变化2021年,对于渴望通过广告进行变现的移动开发者来说,可能注定是风云变幻的一年,也将是移动互联网广告程序化购买这个行业程碑式的一年,对此很多国内出海开发者会有更早的感触。自2020年三四季度始,大洋彼岸的美国就掀起了一轮“移动流量的客户端竞价革命”。其实,对于流量竞价(Realtime Bidding)很多PC时代的开发者并不陌生,简而言之,流量竞价就是APP的每一次广告曝光的机会都可以分发至多个买方平台,比如DS、Adnetwork_admob竞价和瀑布的区别和文档

推荐文章

热门文章

相关标签