信创服务器和现有商业芯片服务器的故障率对比

@Yufu338 信息技术经理:

故障率相当,但因为信创服务器较少,所以数据仅供参考;信创服务器最大的问题不是故障率,而是出现故障后的故障修复能力比较弱,很多故障都无法做根因分析,而且因为美国制裁的原因,鲲鹏跟海光平台的服务器无法得到国外关键部件厂商的技术支持,有些故障根本无法解决。
 

@summit 架构管理岗:

从我们使用的服务器情况大概说一下,仅作为参照。XC 服务器主要是浪潮(飞腾 S2500 )、长城(飞腾 S2500 )、紫光恒越(海光 7280 )、百信恒山(鲲鹏 920 ),近一年的使用情况来说紫光恒越(海光 7280 )和百信恒山(鲲鹏 920 )在资源使用率达到 90% 以上,未出过问题;浪潮(飞腾 S2500 )、长城(飞腾 S2500 )在资源使用率达到 70%-80% 左右就出现问题,可能跟相关产品的适配不兼容有关联。从性价比考虑,建议此类服务器主要应用在开发测试环境或者非关键应用的生产环境。

 

@EastBrother 技术支持:

信创服务器和商业服务器的来对比的话,因为服务器内部都是电子元器件,电子元器件都有故障和老化的现象,无论是信创服务器还是商业服务器,设备在其生命周期内基本上都有设备故障现象发生的,一般情况下分三个阶段:

1、初期故障期,就是新采购的服务器在上架安装投产前后,由于设备设计、物料制造不良,物料保管不善、运输颠簸、接口松动、操作不当等而造成的设备故障,比如设备初次加电就发现某些部件出现故障,这种故障相对来说比较少见。

2、偶发故障期,就是设备投产后,且设备的零部件未达到使用寿命,但一部分零件出现故障的情况,这种故障是不可预测的,若服务器设备长期处于高负载运行状态可能硬盘故障率会高一些,一般是高IO连续运行一年多以上,硬盘故障率会有所升高。

3、磨损故障期,就是设备投产三到五年后设备零件磨损过度,造成故障率上升,如果加强设备维修,及时更换即将到达寿命的零部件,则可能会降低一些故障率,但维修费也会过高,此时则应考虑更新设备了。

针对总体故障率比较的话,不同厂商的服务器产品其设备故障率还是有一些特点的,当然结合用户对服务器使用场景不同其故障率特点也不同,需要用户积累一些运维数据才能分析出来。
 

@actor168 研发工程师:

从亲身体验来看,其实都差不多,服务器故障是多方面的:内存条坏掉、磁盘坏、网卡坏、莫名死机、CPU坏,目前来看,这些硬件制作工艺都一致,只是设计上有所不同,故障率基本一致。
 

@yulu4314 系统工程师:

信创的产品,我们这里硬件故障率不是很高。

频繁出问题的是上层软件兼容性。
转自于:twt企业IT社区

原创文章,作者:AIRF,如若转载,请注明出处:http://www.ai-rf.com/index.php/2023/08/03/%e4%bf%a1%e5%88%9b%e6%9c%8d%e5%8a%a1%e5%99%a8%e5%92%8c%e7%8e%b0%e6%9c%89%e5%95%86%e4%b8%9a%e8%8a%af%e7%89%87%e6%9c%8d%e5%8a%a1%e5%99%a8%e7%9a%84%e6%95%85%e9%9a%9c%e7%8e%87%e5%af%b9%e6%af%94/

(0)
AIRFAIRF
上一篇 2023年8月3日
下一篇 2023年8月5日

相关推荐

  • Storcli工具使用方法(附管理工具)

    使用storcli64工具进行查看RAID状态:# ./storcli64 /c0 show 使用storcli64工具进行删除RAID: # ./storcli64 /c0 /v…

    硬件天地 2021年12月29日
  • 电脑死机的时候,CPU到底在做什么?

    前几天,读者群里有人聊起了一个问题:计算机为什么死机,死机的时候CPU在干什么? 我想起之前写过这方面的文章,想着估计有不少新粉没有看过,就挖个坟给大家看看,这个有趣又能涨知识的问…

    2023年11月20日
  • GPU卡虚拟化技术的优劣势对比

    号 方案类型 代表产品 方案概述 优势 劣势 1 Mdev框架 vGPU 属于时分的共享产品。它通过vfio-mdev提供了一个隔离性非常高的的硬件环境,主要面向的是虚拟机产品。其…

    硬件天地 2023年8月3日
  • IPMI管理工具使用方法

    前言 最近需要对多台服务进行控制,通过服务器的 BMC 控制台去控制太麻烦,服务器刚好支持 IPMI 协议,这里记录下常用的几条命令备忘。 什么是 IPMI 智能平台管理接口(In…

    硬件天地 2021年12月31日
  • Raid卡工具-arcconf工具常用命令(适用与Ctrl+H)

    查看controller和硬盘信息 arcconf getconfig <controller id> 例:arcconf getconfig 1 查看controll…

    硬件天地 2024年7月30日
  • 物理服务器多块硬盘故障

    一.问题描述 生产环境中某操作系统并插网线后在系统下网口状态为DOWN,HBA卡网卡口状态显示正常,但无法与光纤交换机进行互信 二.排查问题 查看服务器网卡灯是否正常闪烁查看网线与…

    硬件天地 2021年11月21日
  • H3C服务器红灯故障解决方案

    1.现象描述 巡检部门巡检现场发现H3C服务器红灯报警,现场查看服务器状态,现场查看后未发现任何故障,收集带外日志信息也未发现任何告警 2.解决问题 更换两次主板后无果,将服务器进…

    硬件天地 2021年11月21日
  • StorCLI工具日志收集分析

    工具名称​​:storcli(LSI/Broadcom RAID 卡管理工具) ​​用途​​:收集服务器 RAID 控制器的详细硬件配置与运行状态,用于存储系统故障排查或健康检查。…

    硬件天地 2025年7月24日
  • GPU虚拟化技术详解(附讲解视频)

    GPU虚拟化技术: 1 GPU 和软件架构 GPU可以用于图形渲染,GPU 作为加速图形绘制的芯片时,它主要面向的产品主要是会集中在 PC 和游戏两个市场。也能够用于高性能计算领域…

    硬件天地 2023年5月29日
  • 服务器图形正常显示后变为NO SIGNAL

    前景描述 20台服务器安装操作系统时,有一台总提示无法正常安装,在BIOS自检界面异常的卡   排查 由于自检非常卡且无异常报错,于是更换主板后自检可以快速过了 但是安装…

    硬件天地 2023年9月5日

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注