【RPC】序列化与反序列化_rpc序列化与反序列化-程序员宅基地

技术标签: Java  RPC  rpc  

1. 基本概念?

序列化和反序列化是一种数据转化的技术,从数据的用途来看,序列化就是为了将数据按照规定的格式就行重组,在保持原有的数据语义不变的情况下,达到存储或者传输的目的。

反序列化则是为了将序列化后的数据重新还原成具有语义的数据,以达到重新使用或者复用原有数据的目的。

序列化框架则是提供这种转化功能的解决方案和工具库。

序列化协议就是一种结构化的数据格式,它一般指的是数据格式化的规则。

2. 文本格式的序列化方案

2.1 XML格式

XML数据的基本单位是元素,元素由其实标签、元素内容和结束标签组成。用户把要描述的数据对象放在其实标签和结束标签之间。

在Java领域中,目前常见的XML格式的序列化框架有三种:

  • 第一种是JDK自带的XML格式的序列化API,分别是java.beans.XMLEncoder和java.beans.XMLDecoder,这两个类提供了XML格式数据的序列化能力。

  • 第二种是Digester,它是从Struts发展而来的,它只能从XML文件解析成Java Bean对象,功能比较单一。

  • 第三种是XStream,是一个功能比较丰富的框架,它不仅可以将Java Bean对象和XML数据互传,还支持JSON格式的转化啊。并且它的API使用也比较简单。现在大多数Java Bean和XML数据互转都用该框架来实现。

    • 在Maven依赖中加入以下依赖:
    <dependency>
          <groupId>com.thoughtworks.xstream</groupId>
          <artifactId>xstream</artifactId>
          <version>1.4.15</version>
    </dependency>
    

    API也比较简单:

    // 序列化
    String xml = xstream.toXML(对象);
    // 反序列化,需要强制转化
    类 对象 = (类)xtream.fromXML(xml);
    

2.2 JSON格式

JSON是JavaScript Object Notation的缩写,可以理解为是JavaScript对象的表示方法。

JSON格式整体看起来每个数据都是key-value形式。JSON数据本身也有自己的一套规范。比如数据就是中括号“[]”包裹起来的内容,数组中的每个元素都用“,”隔开,每个对象都用“{}”包裹起来。

JSON和XML相比,序列化后的数据包会更小,反序列化JSON格式的数据要比反序列化XML格式的数据更容易,速度也会更快。

JSON作为文本格式的序列化方案,并没有对数据进行压缩,原封不动地呈现了所有数据,并且还增加了一些标示符来帮助反序列化,数据包依旧非常大,在序列化和反序列化地性能上也还有很大进步空间。

目前集中常见地支持JSON格式的序列化矿建如下:

  • Fastjson:该框架是阿里巴巴开源的JSON解析库,它可以解析JSON格式的字符串,支持将Java Bean序列化为JSON字符串,也可以反序列化为Java Bean。它的优点是速度快、社区较为活跃、API十分简单,不需要第三方库的依赖。
  • Jackson:简单易用并且性能相对较高一些,流式解析JSON格式,在解析数据量大的JSON格式文本时比较有优势。将复杂类型的JSON转换为Bean会出现问题,比如一些集合Map、List的转换;将复杂类型的Bean转换为JSON,转换的JSON格式不是标准的JSON格式
  • Gson:由Google开源的JSON解析库,功能最全,它没有依赖第三方类库,但是在性能上比JSON-lib和Fastjson稍微差一点。
  • JSON-lib:最开始的JSON解析工具,它在进行Java Bean和JSON字符串互相转化的时候,依赖了太多的第三方库,并且在转化的时候还有缺陷,比如数值溢出时不抛出错误。该工具最近一次更新也是在七年前了,它已经满足不了现在的开发要求。

下面详细介绍一下Fastjson。

Fastjson从名字上就可以很好理解:快和JSON。专注一件事:就是将Java对象与JSON字符串互转。

**从序列化的角度来看,**在进行序列化时要将一个对象转化为JSON格式的字符串,必定经历两个步骤,

  • 第一步就是获取Java对象的属性值。JSON格式中的每个数据都是key-value的形式。所以在转化为JSON格式之气那,必须获取对象的属性值。
  • 第二步就是将属性名及属性值按照JSON的规范组合成JSON字符串。Fastjson在第一步获取属性值时采用了ASM库,并没有选择传统的Java反射来获取属性值,因为反射的性能很差,远不如直接使用ASM库来获取Java对象的属性值。并且Fastjson并没有将整个ASM库引入Fastjson框架,二十引入了ASM库的部分内容。在第二步中由于用字符串直接拼接的性能太差,而使用java.lang.StringBuilder会相对好得多,所以Fastjson提供了类似StringBuilder的工具类SerializeWriter,进一步提升了字符串拼接的性能。

除了通过以上两个策略来提升性能,Fastjson还做了以下三点比较重要的优化:

  • 第一点就是用ThreadLocal来缓存buf。SerializeWriter中有一个char buf[]属性,每序列化一次,都要做一次分配,它的作用时缓存每次序列化后字符串的内存地址,Fastjson使用ThreadLocal来缓存buf。这个办法能够减少对象分配和GC,从而提升性能。

    protected char buf[];
    private final static ThreadLocal<char[]> bufLocal = new ThreadLocal<char[]>();
    

    在SerializeWriter的构造方法,当调用SerializeWriter的构造方法时,先从bufLocal中获取,如果在bufLocal中有缓存存在,则把值清空。这样就不需要重新分配对象,也减少了GC。如果没有缓存,才执行new char[2048]的操作。

  • 第二点就是使用IdentityHashMap存储Class和ObjectSerializer的映射关系:Fastjson有一个重要的类叫做SerializeConfig,其中缓存了各种配置,包括Calss和Serizlier的映射关系。该属性定义如下:

    private final IdentityHashMap<Type, ObjectSerializer> serializers;
    

    其中ObjectSerializer时Fastjson的一个接口,它定义了序列化的方法,每个类型都对应一个ObjectSerializer,比如数组类型的序列化就用到了ArraySerializer等。每个类型都需要和ObjectSerializer做映射,并且缓存,这样能够方便序列化处理类的快速查找、避免ObjectSerializer的反复创建。如果使用HashMap,则存在并发问题;如果使用ConcurentHashMap,则会有自选等待的情况,导致性能变低。Fastjson实现了一个IdentityHashMap,它参考了JDK自带的java.util.IdentityHashMap,通过避免equals操作来提高性能,Fastjson重写了值匹配的逻辑,在对比是否为同一个key值时只认为key==entry.key才算是同一个。除了去掉equals操作,Fastjson还去掉了transfer操作,保证并发处理时正常工作,但是不会导致死循环。

  • 第三点优化就是排序输出,为反序列化做准备。Fastjson默认启用排序:JSON格式的数据都是一种key-value结构,正常的HashMap是无序的,Fastjson默认是按照key的顺序进行排序输出的,这样做为了反序列化读取的时候只需要做key的匹配,而不需要把key从输入读取出来。

Fastjson在反序列化的优化也四点:

  • 第一点是使用IdentityHashMap存储Class和ObjectDeserializer的映射关系:每个类型都应该和对应的序列化器ObjectDeserializer一一映射,并且缓存,减少反复创建序列化器的开销。反序列化时也和序列化时一样,用IdentityHashMap进行存储,并且该缓存存放在ParserConfig组件中。
  • 第二点是读取token值时基于预测:Fastjson在反序列化一个JSON字符串时,下一个字符一般情况下是可以预估的。比如字符”}“之后最有可能出现的是”,“”]””}”等。预测的逻辑被封装在JSONLexerBase中。
  • 第三点是与序列化相呼应,快速匹配。与上面的序列化有序输出一一对应,反序列化的时候key-value的内容是有序的,读取的时候只需要做key的匹配,而不需要把key读取出来再匹配。
  • 第四点就是基于SymbolTable算法缓存关键字。使用SymbolTable算法缓存关键字,可以避免创建新的字符串对象。假设在一个JSON字符串中,有成千上万个同样的JSON对象的数组,在数据转换过程中,如果不对这些JSON对象中的key做缓存,那么将存在成千上万个同样的字符串对象(值相同)。

3. 二进制格式的序列化方法

二进制格式的序列化方案指数据按照某种编排规则通过二进制格式呈现。将对象序列化为二进制格式的数据能够大大减小数据包大小,从而提高传输速度和解析速度。二进制格式的序列化方案相对于文本格式的序列化方案而言,性能较高,对数据容易做加密处理,安全性较高。

下面举两个二进制格式的序列化方案:

  • 第一个方案就是JDK原生序列化方法:Java序列化是在JDK1.1中引入的,Java序列化的API可以帮助我们将Java对象和二进制流互相转化,API的使用也很简单,只要在序列化的类定义上实现java.io.Serializable接口,然后通过OBjectInputStream和ObjectOuputStream即可实现两者的转化。该序列化方式将字段类型信息用字符串格式写到了二进制中,这样反序列化方就可以根据字段信息实现反序列化。该序列化方式生成的字节流太大,并且性能也不高,所以目前基本不会用该序列化方法。

  • 第二个方案就是Kryo:Kryo是一款优秀的Java序列化框架,它是一款快速序列化/反序列化的工具,相比于JDK的序列化方案,Kryo使用了字节码生成机制(底层依赖了ASM库),因此在序列化和反序列化的性能上提升了不少,Kryo还做了数据压缩的优化,见笑了序列化后的数据包大小。它除了在性能提升方面和简化数据包方面做了优化,还提供了非常便利的功能。Kryo序列化出来的结果是Kryo独有的一种格式,它会将这种格式的数据转化为二进制格式的数据。(Kryo目前只有Java版本的实现。)

    Kryo之所以在序列化和反序列化的性能上有良好的优势,是因为Kryo在时间消耗和空间消耗上都做了一定程度的优化,在时间消耗方面的优化,主要是预先缓存了元数据信息。Kryo先加载类元数据信息,将加载后的二进制数据存入缓存,保证之后的序列化及反序列化都不需要重新加载该类元数据信息。虽然在第一次加载时耗费性能,但是方便了后续的加载。在空间消耗上,为了降低序列化后的数据大小,做出了一下两点优化:

    • 变长的设计降低空间消耗:Kryo对long、int这两种数据类型采用边长字节存储来代替Java中使用固定的长度存储的模式。以int数据类型为例,在Java中一般需要4字节去存储,而对Kryo来说,可以通过1~5个变长字节去存储,从而避免较小的数值的高位都是0,0存储非常浪费空间。
    • 压缩元数据信息:Kryo提供了单独序列化对象信息,以及将类的元数据信息与对象信息一起序列化这两种徐方式。由于第二种方式携带的元数据信息太大,导致序列化后的数据特别大,所以Kryo由提供了一种提前注册类的方式,这种方式是在Kryo中将Java类用唯一ID表示,当Kryo对Class进行序列化时只需要将对应的ID数值进行序列化即可,无须序列化类的全部元信息,而在反序列化时也只需要根据ID来找到对应的类,然后通过类加载进行加载,这样大大减少了序列化收的数据大小。

Kryo和JDK的序列化方案有一个共同的特点,那就是都只能在Java语言中使用。二进制的序列化方案有一个比较严重的问题——它对异构性语言并不友好。目前有三个方案可以解决异构语言的问题:

  • 第一个方案:根据相同的机制重新实现对应语言的序列化框架
  • 第二个方案:通过与编程语言无关的IDL来解决异构语言的问题。目前通过这种方案实现对多语言的支持,并且较为常见的序列化方案有:
    • Thrift:是Facebook开源的一个高性能、轻量级RPC服务框架。在Thrift框架内部提供了对thrift协议的序列化工具,并且见笑了序列化后的数据包大小,以及提升了解析的性能,但是Thrift没有暴露序列化和反序列化的API,thrift协议的序列化能力与Thrift框架强耦合,所以它支持其他协议的序列化和反序列化比较困难。由于Thrift有IDL的设计,支持多语言之间进行远程调用,所以它同样支持多语言之间的序列化。
    • ProtoBuf:全称为Google Protocal Buffer,是Google公司内部的混合语言数据标准,它是一种轻便高效的结构化数据存储格式,可用于序列化。它解析速度快,序列化和反序列化API非常简单,它的文档也非常丰富,并且可以跟各种传输协议结合使用。它同样有IDL的设计,并且提供了IDL的编译器,它支持的语言也非常多,比如C++、C#、Dart、Golang、Java、Python、Rust等。ProtoBuf在性能上也具有非常大的又是,主要体现在:
      • 用标识符来识别字段。(序列化后的数据大大减小了)
      • 自定义可变数据类型Varint用来存储整数。
      • 记录字符串长度,解析时直接截取。

4. 序列化框架选型

在序列化框架选型阶段,需要从多个角度来考量各个序列化框架。在做选型之前,首先需要明确项目的需求,比如需要将序列化框架运用在数据的传输中,但是要明确整个传输过程中更侧重性能,还是侧重可读性,仅明确这一点就可以在选型初期排除一大批序列化框架。

通过初期筛选的序列化框架可以从以下几个角度综合考量:

  • 通用性。
  • 性能。
  • 可扩展性。
  • 安全性。
  • 支持的数据类型的丰富程度。
  • 可读性。
  • 开源社区成熟度和活跃度。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Aibiabcheng/article/details/125475166

智能推荐

最新电信,网通路由表(200701日更新)-程序员宅基地

文章浏览阅读4.1k次。说明:ROS2.9.27用的网通,电信路由脚本操作方式: 添加脚本方式请,将你的正确的电信或网通的网关,使用用编辑-替换掉脚本里的“网关”,然后打开winbox,点击Terminal(控制终端)然后复制脚本,并在Terminal(控制终端)中点右键选择“paste”粘贴脚本,粘贴完后敲回车,即可完成!电信的路由表如下:/ip routeadd dst-address=

Navicat Premium 12.0.23安装与激活-程序员宅基地

文章浏览阅读517次。本文介绍Navicat Premium 12.0.24的安装、激活与基本使用。说明:博主所提供的激活文件理论支持Navicat Premium 12.0.16 - 12.0.24简体中文64位,但已测试的版本为Navicat Premium 12.0.22、12.0.23和12.0.24简体中文64位。 说明:博主所提供的压缩包格式均为RAR5,即WinRAR 5.0以上的版本才能正常解压,...

STM32标准库移植RT-Thread Nano添加FinSH与控制台_标准库实现rt_hw_console_getchar-程序员宅基地

文章浏览阅读1.6k次,点赞6次,收藏15次。添加过shell后首先要在 rtconfig.h中定义#define RT_USING_FINSH为了方便,串口相关函数添加在board.c中使用串口中断实现命令的接收/* * Copyright (c) 2006-2019, RT-Thread Development Team * * SPDX-License-Identifier: Apache-2.0 * * Change Logs: * Date Author Notes * 2017-0_标准库实现rt_hw_console_getchar

chapter 4.3 cache -- 主存的地址映射和替换算法_映射替换,地址流格式-程序员宅基地

文章浏览阅读1.6k次,点赞3次,收藏4次。cache – 主存的地址映射和替换算法映射(3)1.直接映射原理主存块以cache长度分区,映射时cache缓存块仅接受各区中相对应的块号,tag仅需保存t位区号eg: cache[0] 中仅可以存放 主存[0,2c,2c+1,3*2c…]每个缓存块i(cache) 可以和 若干个主存块对应每个主存块j只能和 一个 缓存块(cache)对应地址块号直接与cache对应块标记..._映射替换,地址流格式

最长上升子序列&&最长不下降子序列-程序员宅基地

文章浏览阅读99次。百练2757: 题目描述: 对于给定的序列,求出最长上升子序列的长度。题目链接:http://bailian.openjudge.cn/practice/2757解题思路一、动态规划 1. 找子问题错误找法: “求序列的前n个元素的最长上升子序列的长度”是个子问题,但这样分解子问题,不具有“无后效性” 假设F(n) = x,但可能有多个序列满足F(n)..._. s,c; xm,xadnn/ or 0

NetWork——描述一次完整的网络请求过程_浏览器network发起请求历程-程序员宅基地

文章浏览阅读4.9k次。想拥有自己的服务器?价钱太贵,便宜的配置太低。。。总是处于各种原因,现在特大好消息,阿里云服务器活动,价钱低到爆,快来了解下,2核4G,3年低至699,时间有限,还剩10天,快来选购吧,地址:https://promotion.aliyun.com/ntms/act/vm/aliyun-group/buy.html?group=IAq264WFLl当我们在浏览器的地址栏输入 www.lin..._浏览器network发起请求历程

随便推点

对前端页面的边框设置_前端斜的边框-程序员宅基地

文章浏览阅读6.5k次。二·如何对边框设置:1.&lt;div style="text-align:center; vertical-align:middel;"&gt;&lt;input type="text"&gt;&lt;/div&gt;这样你试试,应该就是左右 上下都居中了2.如果是让内容显示的居中:&lt;html&gt;&lt;head&gt;&lt;style&gt;_前端斜的边框

Springboot2中修改tomcat参数支持请求特殊符号 解决:java.lang.IllegalArgumentException: Invalid character found in ..._springboot内置tomcat放宽http请求头特殊字符-程序员宅基地

文章浏览阅读929次。使用Springboot2中内置的tomcat启动项目时候,前端发来的请求报错:java.lang.IllegalArgumentException: Invalid character found in the request target. The valid characters are defined in RFC 7230 and RFC 3986 at org.ap..._springboot内置tomcat放宽http请求头特殊字符

SHOW STATUS语句查看MySQL数据库的性能参数_show status like threads-程序员宅基地

文章浏览阅读1k次。SHOW STATUS语句查看MySQL数据库的性能参数1.SHOW STATUS like 'Slow_queries' //慢查询的次数 查看日志 1.配置 centos下 my.cnf log-slow-queries = /tmp/mysql-slow.log long_query_..._show status like threads

matlab如何解不等式,如何用MATLAB求解不等式组的所有可能解-程序员宅基地

文章浏览阅读2k次。太多了吧:No. a b c d1 4 86 17 652 13 96 20 873 5 97 56 544 4 32 14 ..._matlab 不等式组求解

2022年09月 Scratch图形化(三级)真题解析#中国电子学会#全国青少年软件编程等级考试_2022年9月scratch三级真题-程序员宅基地

文章浏览阅读273次,点赞4次,收藏4次。所以,答案D是错误的。两个角色小猫和小狗,给小猫创建一个仅适用于当前角色的变量“奔跑速度”,给小狗也创建一个仅适用于当前角色的变量“奔跑速度”,小猫和小狗程序如下图所示,点击绿旗,按下两次空格键,小猫和小狗的奔跑速度都变为7。运行程序后角色将从(0,0)点开始移动,x和y坐标的增加值均在1至10之间,因此,移动后的位置为点(1,1),(1,10),(10,1)和(10,10)所围成的四边形中。D:“我的变量”和计时器一起增加,当“我的变量”大于15时,计时器会归零,“我的变量”会随着计时器重新开始增加。_2022年9月scratch三级真题

Spring Security 如何实现身份认证和授权?_spring security认证和授权流程-程序员宅基地

文章浏览阅读2.7k次,点赞5次,收藏6次。Spring Security 是一个非常强大的安全框架,可以为 Spring Boot 应用提供完整的身份认证和授权功能。本文介绍了 Spring Security 如何实现身份认证和授权,并提供了示例代码。使用 Spring Security 可以非常方便地保护应用程序,防止恶意攻击和数据泄露。_spring security认证和授权流程

推荐文章

热门文章

相关标签