高手经验分享,嵌入式开发出现BUG的常见原因-程序员宅基地

技术标签: python  java  多线程  堆栈  嵌入式  

点击上方“小麦大叔”,选择“置顶/星标公众号”

福利干货,第一时间送达

在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。

通常需要英勇的努力和昂贵的工具才能从观察到的崩溃,死机或其他计划外的运行时行为追溯到根本原因。

在最坏的情况下,根本原因会破坏代码或数据,使系统看起来仍然可以正常工作或至少在一段时间内仍能正常工作。

工程师常常放弃尝试发现不常见异常的原因,这些异常在实验室中不易再现,将其视为用户错误或“小故障”。

然而,机器中的这些鬼魂仍然存在。这是难以重现错误的最常见根本原因指南。每当您阅读固件源代码时,请查找以下五个主要错误。并遵循建议的最佳做法,以防止它们再次发生在您身上。

错误1:竞争条件

竞争条件是指两个或多个执行线程(可以是RTOS任务或main() 和中断处理程序)的组合结果根据交织指令的精确顺序而变化的任何情况。每个都在处理器上执行。

例如,假设您有两个执行线程,其中一个规则地递增一个全局变量(g_counter + = 1; ),而另一个偶然将其归零(g_counter = 0; )。如果不能始终以原子方式(即,在单个指令周期内)执行增量,则存在竞争条件。

如图1所示,将任务视为汽车接近同一十字路口。计数器变量的两次更新之间的冲突可能永远不会发生,或者很少会发生。但是,这样做的时候,计数器实际上不会在内存中清零。其值至少在下一个清零之前是损坏的。这种影响可能会对系统造成严重后果,尽管可能要等到实际碰撞后很长一段时间才会出现。

322a0be76e6b17ad7e3e20f9d43fff4f.png

最佳实践:可以通过必须以适当的抢先限制行为对原子地执行代码的关键部分,来避免竞争条件。为防止涉及ISR的争用情况,必须在另一个代码的关键部分持续时间内至少禁止一个中断信号。

对于RTOS任务之间的争用,最佳实践是创建特定于该共享库的互斥体,每个互斥体在进入关键部分之前必须获取该互斥体。请注意,依靠特定CPU的功能来确保原子性不是一个好主意,因为这只能防止争用情况发生,直到更换编译器或CPU。

共享数据和抢占的随机时间是造成竞争状况的元凶。但是错误可能并不总是会发生,这使得从观察到的症状到根本原因的种族状况跟踪变得异常困难。因此,保持警惕以保护所有共享对象非常重要。每个共享对象都是一个等待发生的事故。

最佳实践:命名所有潜在共享的对象(包括全局变量,堆对象或外围寄存器和指向该对象的指针),以使风险对于所有将来的代码阅读者而言都是显而易见的;在Netrino嵌入式C编码标准提倡使用“的G_ 为此,”前缀。查找所有可能共享的对象将是争用条件代码审核的第一步。

错误2:不可重入功能

从技术上讲,不可重入功能的问题是争用状况问题的特例。而且,由于相关原因,由不可重入函数引起的运行时错误通常不会以可重现的方式发生-使它们同样难以调试。

不幸的是,非重入功能也比其他类型的竞争条件更难在代码审查中发现。

图2 显示了一个典型的场景。在这里,要抢占的软件实体也是RTOS任务。但是,它们不是通过直接调用共享对象而是通过函数调用间接操作。

例如,假设任务A调用套接字层协议功能,该套接字功能调用TCP层协议功能,调用IP层协议功能,该功能调用以太网驱动程序。为了使系统可靠地运行,所有这些功能都必须是可重入的。

dfe9f738e15bec6530417d003d00254d.png

但是,以太网驱动程序的所有功能都以以太网控制器芯片的寄存器形式操作相同的全局对象。如果在这些寄存器操作期间允许抢占,则任务B可以在将数据包A排队之后但在发送开始之前抢占任务A。

然后,任务B调用套接字层功能,该套接字层功能调用TCP层功能,再调用IP层功能,该功能调用以太网驱动程序,该队列将数据包B排队并传输。当CPU的控制权返回到任务A时,它将请求传输。根据以太网控制器芯片的设计,这可能会重传数据包B或产生错误。数据包A丢失,并且不会发送到网络上。

为了可以同时从多个RTOS任务中调用此以太网驱动程序的功能,必须使它们可重入。如果它们每个仅使用堆栈变量,则无事可做。

因此,C函数最常见的样式固有地是可重入的。但是,除非精心设计,否则驱动程序和某些其他功能将是不可重入的。

使函数可重入的关键是暂停对外围设备寄存器,包括静态局部变量,持久堆对象和共享内存区域在内的全局变量的所有访问的抢占。这可以通过禁用一个或多个中断或获取并释放互斥锁来完成。问题的细节决定了最佳解决方案。

最佳实践:在每个库或驱动程序模块中创建和隐藏一个互斥量,这些互斥量不是本质上可重入的。使获取此互斥锁成为操作整个模块中使用的任何持久数据或共享寄存器的前提。

例如,相同的互斥锁可用于防止涉及以太网控制器寄存器和全局或静态本地数据包计数器的竞争情况。在访问这些数据之前,模块中访问此数据的所有功能必须遵循协议以获取互斥量。

注意非重入功能可能会作为第三方中间件,旧版代码或设备驱动程序的一部分进入您的代码库。

令人不安的是,不可重入函数甚至可能是编译器随附的标准C或C ++库的一部分。如果您使用GNU编译器来构建基于RTOS的应用程序,请注意您应该使用可重入的“ newlib”标准C库,而不是默认库。

错误3:缺少volatile关键字

如果未使用C的volatile 关键字标记某些类型的变量,则可能导致仅在将编译器的优化器设置为低级或禁用编译器才能正常工作的系统中出现许多意外行为。该挥发性预选赛期间变量声明,其中它的目的是为了防止优化的读取和变量的写入使用。

例如,如果您编写清单1所示的代码,则优化器可能会通过消除第一行来尝试使程序更快速,更小,从而损害患者的健康。但是,如果将g_alarm 声明为volatile ,那么将不允许这种优化。

76cf04e5c7af4a24d77a40080cebc32c.png

最佳实践:将挥发 的关键字应该用于声明每个:

由ISR和代码的任何其他部分访问的全局变量,

由两个或多个RTOS任务访问的全局变量(即使已阻止了这些访问中的竞争条件),

指向内存映射外设寄存器(或一组或一组寄存器)的指针,以及

延迟循环计数器。

请注意,除了确保所有读写操作都针对给定变量之外,使用volatile 还通过添加其他“序列点”来限制编译器。除易失性变量的读取或写入之外的其他易失性访问必须在该访问之前执行。

错误4:堆栈溢出

每个程序员都知道堆栈溢出是很不好的事情。但是,每次堆栈溢出的影响都各不相同。损坏的性质和不当行为的时机完全取决于破坏哪些数据或指令以及如何使用它们。重要的是,从堆栈溢出到它对系统的负面影响之间的时间长短取决于使用阻塞位之前的时间。

不幸的是,堆栈溢出比台式计算机更容易遭受嵌入式系统的困扰。这有几个原因,其中包括:

(1)嵌入式系统通常只能占用较少的RAM;

(2)通常没有虚拟内存可回退(因为没有磁盘);

(3)基于RTOS任务的固件设计利用了多个堆栈(每个任务一个),每个堆栈的大小都必须足够大,以确保不会出现唯一的最坏情况的堆栈深度;

(4)中断处理程序可能会尝试使用这些相同的堆栈。

使该问题进一步复杂化的是,没有大量的测试可以确保特定的堆栈足够大。您可以在各种加载条件下测试系统,但是只能测试很长时间。仅在“半个蓝月亮”中运行的测试可能不会见证仅在“一次蓝月亮”中发生的堆栈溢出。在算法限制(例如无递归)下,可以通过对代码的控制流进行自上而下的分析来证明不会发生堆栈溢出。但是,每次更改代码时,都需要重做自上而下的分析。

最佳实践:启动时,在整个堆栈上绘制不太可能的内存模式。(我喜欢使用十六进制23 3D 3D 23,它看起来像ASCII内存转储中的篱笆' #==# '。)在运行时,让管理员任务定期检查是否没有任何涂料在预先设定的高水位上方标记已更改。

如果发现某个堆栈有问题,请在非易失性内存中记录特定的错误(例如哪个堆栈以及洪水的高度),并为产品的用户做一些安全的事情(例如,受控关闭或重置)可能会发生真正的溢出。这是添加到看门狗任务中的一项不错的附加安全功能。

错误5:堆碎片化

嵌入式开发工程师并没有很好地利用动态内存分配。其中之一是堆碎片的问题。

通过C的malloc() 标准库例程或C ++的new 关键字创建的所有数据结构都驻留在堆中。堆是RAM中具有预定最大大小的特定区域。最初,堆中的每个分配都会减少相同字节数的剩余“可用”空间。

例如,特定系统中的堆可能从地址0x20200000开始跨越10 KB。一对4 KB数据结构的分配将留下2 KB的可用空间。

可以通过调用free() 或使用delete 关键字将不再需要的数据结构的存储返回到堆中。从理论上讲,这使该存储空间可用于后续分配期间的重用。但是分配和删除的顺序通常至少是伪随机的,这导致堆变成一堆更小的碎片。

若要查看碎片可能是一个问题,请考虑如果上述4 KB数据结构中的第一个空闲时会发生什么情况。现在,堆由一个4 KB的空闲块和另一个2 KB的空闲块组成。它们不相邻,无法合并。所以我们的堆已经被分割了。尽管总可用空间为6 KB,但超过4 KB的分配将失败。

碎片类似于熵:两者都随时间增加。在长时间运行的系统(换句话说,曾经创建的大多数嵌入式系统)中,碎片最终可能会导致某些分配请求失败。然后呢?您的固件应如何处理堆分配请求失败的情况?

最佳实践:避免完全使用堆是防止此错误的肯定方法。但是,如果动态内存分配在您的系统中是必需的或方便的,则可以使用另一种结构化堆的方法来防止碎片。

关键观察是问题是由大小可变的请求引起的。如果所有请求的大小都相同,则任何空闲块都将与其他任何块一样好,即使它恰巧不与任何其他空闲块相邻。图3 显示了如何将多个“堆”(每个用于特定大小的分配请求)的使用实现为“内存池”数据结构。

a328c27540a0b32f2af0f04ec00363ff.png

许多实时操作系统都具有固定大小的内存池API。如果您可以访问其中之一,请使用它代替malloc() 和free() 。或编写自己的固定大小的内存池API。您只需要三个函数:一个用于创建新的池(大小为M 块N 字节);另一个分配一个块(来自指定的池);三分之一代替free() 。

代码审查仍然是最佳实践,

可以通过首先确保系统中不存在这些错误来避免许多调试麻烦。最好的方法是让公司内部或外部的人员进行全面的代码审查。强制使用我在这里描述的最佳实践的标准规则编码也应该会有所帮助。如果您怀疑现有代码中存在这些讨厌的错误之一,那么执行代码审查可能比尝试从观察到的故障追溯到根本原因要快。

素材来源:

华清远见成都中心博主的原创文章,

遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

https://blog.csdn.net/weixin_44059661/article/details/107839764

版权归原作者所有,仅供大家学习参考。如涉及作品版权问题,请联系我进行删除,感谢~

—— The End ——

往期推荐

可视化的Keil工程配置模板,一招提高单片机开发效率

如何DIY一个复古的显像管时钟?

一个有趣的项目,OLED实现"裸眼3D"

新手经常忽略的嵌入式基础知识点,你都掌握了吗?

单片机国产替代选型合集,势在必行!

走进晶圆厂,深入了解芯片制造流程

大疆工厂的自动化程度,真的有点高

点击名片关注我

e17cdfd03c47d18804066eb55d92619b.png

你点的每个好看,我都认真当成了喜欢

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u010632165/article/details/124207277

智能推荐

python overflowerror_python – 是否真的引发了OverflowError?-程序员宅基地

文章浏览阅读520次。Python 2.7.2 (v2.7.2:8527427914a2, Jun 11 2011, 15:22:34)[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwinType "help", "copyright", "credits" or "license" for more information.>>> float(1...

详解SwiftUI数据流是怎么在View间传递的_ios 怎么把swiftui事件传到uiview里-程序员宅基地

文章浏览阅读1.9k次。作为一个声明式的UI框架,SwiftUI帮我们处理了几乎所有关于UI和数据之间的交互,这使我们不再需要关注数据变化时刷新UI和用户交互以后更新数据的逻辑。为了实现数据和UI的绑定,我们需要利用Swift的一些关属性包装器来向SwiftUI描述它们之间的关系,那么让我们开始吧。到公众号【iOS开发栈】学习更多SwiftUI、iOS开发相关内容。State Properties @State在前面的一篇文章中当我们给数组添加或者删除元素时,列表会自动响应变化,正是因为使用了@State._ios 怎么把swiftui事件传到uiview里

1-8 linux系统中的软件管理-程序员宅基地

文章浏览阅读99次。#### 1.Linux中软件包的类型 ####1.DEB#UBlinux DEBlinux2.RPM #redhat centOS fadora3.bz2|gz|xz#1.需要源码安装需要编译 #2.绿色软件,直接可用 #ntfs-3g_ntfsprogs-2017.3.23.tgz需要编译 "configur...

基于动态用户偏好和服务质量的推荐算法-程序员宅基地

文章浏览阅读4.9k次。引用:Zhang Y, Qian Y, Wang Y. A RecommendationAlgorithm Based on Dynamic User Preference and Service Quality[C]//2018 IEEEInternational Conference on Web Services (ICWS). IEEE, 2018: 91-98.摘要:在服务计算领域...

python二级考试选择题公共基础知识_计算机二级选择题(公共基础知识)-程序员宅基地

文章浏览阅读1.9k次。在这一期的文章主要以计算机二级选择题的公共基础知识进行讲解。在计算机二级考试当中,选择题中的二级公共基础知识是必考的部分。很多考生对计算机二级的公共基础知识选择题有很多不解。二级公共基础知识选择题主要考这些内容。未来教育题库界面截图主要由四章内容组成:数据库结构与算法、程序设计基础、软件工程基础、数据库设计基础一、数据库结构与算法这一章主要难点是对栈与队列以及树与二叉树的理解。话不多说,,直接上例..._计算机二级python公共基础题选择题是什么

VS2013 修改TFS的本地映射路径-程序员宅基地

文章浏览阅读2.2k次。在源代码管理器里面 找到你的本地工作区然后点击编辑按钮修改本地目录_vs怎么更改映射路径

随便推点

Android面试官,面试时总喜欢挖基础坑,整理了26道面试题牢固你基础!(3)-程序员宅基地

文章浏览阅读795次,点赞20次,收藏15次。AIDL是使用bind机制来工作。java原生参数Stringparcelablelist & map 元素 需要支持AIDL其实Android开发的知识点就那么多,面试问来问去还是那么点东西。所以面试没有其他的诀窍,只看你对这些知识点准备的充分程度。so,出去面试时先看看自己复习到了哪个阶段就好。下图是我进阶学习所积累的历年腾讯、头条、阿里、美团、字节跳动等公司2019-2021年的高频面试题,博主还把这些技术点整理成了视频和PDF(实际上比预期多花了不少精力),包含知识脉络 + 诸多细节。

机器学习-数学基础02补充_李孟_新浪博客-程序员宅基地

文章浏览阅读248次。承接:数据基础02

短沟道效应 & 窄宽度效应 short channel effects & narrow width effects-程序员宅基地

文章浏览阅读2.8w次,点赞14次,收藏88次。文章目录1. 概念:Narrow Width Effect: 窄宽度效应Short Channel effects:短沟道效应阈值电压 (Threshold voltage)2. 阈值电压与沟道长和沟道宽的关系:Narrow channel 窄沟的分析Short channel 短沟的分析1. 概念:Narrow Width Effect: 窄宽度效应在CMOS器件工艺中,器件的阈值电压Vth 随着沟道宽度的变窄而增大,即窄宽度效应;目前,由于浅沟道隔离工艺的应用,器件的阈值电压 Vth 随着沟道宽度_短沟道效应

小米组织架构再调整,王川调职,雷军自任中国区总裁_小米更换硬件负责人-程序员宅基地

文章浏览阅读335次。5月17日,小米集团再发组织架构调整及任命通知。新通知主要内容为前小米中国区负责人王川调职,雷军自任中国区总裁。小米频繁调整背后,雷军有些着急了中国区手机业务持续下滑。根据IDC最近公布的数据,小米一季度全球出货量为2750万台,相比去年同期的2780万台,小幅下降。参考Canalys、Counterpoint的统计,小米一季度出货量也都录得1%的同比下滑。作为对比,IDC数据显示,华为同期出..._小米更换硬件负责人

JAVA基础学习大全(笔记)_java学习笔记word-程序员宅基地

文章浏览阅读9.1w次。JAVASE和JAVAEE的区别JDK的安装路径[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-perPRPgq-1608641067105)(C:\Users\王东梁\AppData\Roaming\Typora\typora-user-images\image-20201222001641906.png)]卸载和安装JDK[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SYnXvbAn-1608641067107)(C:\Users_java学习笔记word

vue-echarts饼图/柱状图点击事件_echarts 饼图点击事件-程序员宅基地

文章浏览阅读7.8k次,点赞2次,收藏17次。在实际的项目开发中,我们通常会用到Echarts来对数据进行展示,有时候需要用到Echarts的点击事件,增加系统的交互性,一般是点击Echarts图像的具体项来跳转路由并携带参数,当然也可以根据具体需求来做其他的业务逻辑。下面就Echarts图表的点击事件进行实现,文章省略了Echarts图的html代码,构建过程,option,适用的表格有饼图、柱状图、折线图。如果在实现过程中,遇到困难或者有说明好的建议,欢迎留言提问。_echarts 饼图点击事件

推荐文章

热门文章

相关标签