连接不上 | OSS差异拷贝连接登录类问题
前言:OSS系统后期维护过程中,会遇到差异拷贝(或网络拷贝)同传连接/连线类问题,如接收端连不上发送端、没有连线号、连上后接收端有错误提示、掉线等情况。因此,为了能够帮助用户尽快定位和排查解决问题,此文档将差异拷贝连线过程中可能遇到的情况做了区分和整理,并针对每种情况提供了排查思路与解决方法。请查看以下具体内容:
一、差异拷贝连接必要条件
n 发送端和接收端之间局域网网络连接正常,且能相互互通通讯
n 发送端和接收端安装的OSS版本要一致,如不用用OSS V8的版本去连OSS V5版本等
n 接收端要在开机到OSS底层才会去连接发送端,进了系统里面是无法连上发送端的。
n 发送端和接收端的硬盘数量要一致,硬盘大小只能小传大。即发送端的硬盘容量可以小于接收端的硬盘容量。
二、差异拷贝连接类问题与排查解决方法
1、linux模式接收端部分机器有连线号,部分没有
问题现象描述:差异拷贝linux文本模式连接时,接收端有响应发送端进入接收端界面,且没有错误提示;但有的接收端有连线号,有的接收端没有连线号(即接收端有响应但没有连线号,且发送端那边看不到接收端在线),没有连线号的接收端具体现象如下两图:


排查与解决方法
1) 采用的linux文本模式,但发送端系统内IP地址尾数太大:windows上层差异拷贝linux模式发送端,系统下网卡的IP地址尾数太大,导致差异拷贝等待登录时,接收端只能少部分接收端有连线号,大部分接收端没有连线号。如发送端IP地址是192.168.100.253/24,那么接收端就只有1台有连线号,其他的接收端有响应,但没连线号。此时需将发送端IP尾数改小,可改成1,这样先临时修改下,等同传完重启发送端即可还原成它本身的IP地址。
2、所有接收端机器都没有连线号
问题现象描述:发送端点了等待登录后,所有接收端开机或重启能响应发送端进入接收端界面,但接收端界面没有连线号,连不上发送端,且发送端界面看不到接收端连上来。


排查与解决方法
1) 关闭windows防火墙:采用的是windows上层差异拷贝发送端,但windows系统防火墙没有关闭,需关闭windows系统自带的防火墙。
2) 禁用虚拟机网卡:发送端windows系统下 有virtualbox虚拟网卡,需禁用虚拟网卡。
3) 需清除差异拷贝连线信息:若遇到接收端有响应发送端,但没有连线号,可尝试在发送端系统内差异拷贝界面的“参数设置---清除历史,清除锁定的连线号信息”,如下图。再打开发送端差异拷贝点等待登录,连接测试。

4) OSS群组不一致,要一致:采用linux文本模式同传时,发送端和接收端的OSS群组不一致,导致接收端连线时没有连线号,提示“cannot login:group!”如下图

这种情况需将发送端和接收端群组修改成一样,您可进底层F10---PC设置或差异拷贝主界面确认和修改群组,如下两图:


3、个别接收端提示“InitDiskMatch failed”即硬盘匹配失败
问题现象描述:接收端有响应发送端,但接收端界面上提示“InitDiskMatch failed”即硬盘匹配失败,现象如下几图所示:

排查与解决方法:
1)、大硬盘传小硬盘了,即硬盘大小不一致,只能小传大(单位M);即发送端的硬盘容量大小一定要小于等于接收端硬盘容量。这种情况遇到的很多,可能性大。
2)、发送端和接收端硬盘数量不一样,如发送端2块硬盘,接收端只有1块硬盘。发送端和接收端必须是硬盘数量和大小一致。这种情况遇到的也很多,可能性大。
3)、接收端连上的是别的机房发送端。别的机房的发送端是多硬盘,此机房的接收端是单硬盘。即发送端和接收端硬盘数量和大小要一致。
4) 、BIOS里设置不对,启用了raid模式,需关闭,如HP机器。即硬盘模式不能是raid模式,要关闭raid模式,配置为AHCI模式。如下HP、联想等品牌机器的硬盘模式相关设置



4、接收端没反应,连不上发送端
问题现象描述:发送端点了等待登录,接收端开机或重启后,连不上发送端,直接进系统了或停留在OSS底层选单界面。
排查与解决方法
1)、启用OSS自动连线功能:OSS底层参数设置里要启用自动连线(默认是启用的),不能是不使用,请检查。
2)、OSS系统群组不一致:差异拷贝同传连接时,发送端和接收端的OSS群组名称必须一样,要不然是连不上的。您可进底层F10---PC设置或差异拷贝主界面确认和修改群组,如下图:


3)、检查交换机网络:若有外网先拔掉外网出口网线;如果是所有接收端都连不上发送端,可尝试将所有交换机断电2到3分钟,再通电测试。
4)、检查发送端网络:可先尝试先拔插网线、换旁边电脑的网线、系统内检查网卡工作和通讯状态是否正常。
5)、检查交换机配置:若出现OSS底层倒计时几秒不能自动连上发送端,但手动停留在选单界面,等30秒左右就可以连上发送端,那这种情况需关闭智能交换机配置中的STP生成树,如华为、H3C交换机等。

6)、接收端底层提示初始化网络失败导致连不上发送端:若接收端OSS底层选单界面提示初始化网络失败了,肯定会连不上发送端,需解决初始化失败的问题。现象如下两图:


OSS底层初始化网络失败的一般原因有:
①、网线没接好,即网卡不亮不通
②、OSS V8需将BIOS设置里的IPV4 PXE即Networkstack网络堆栈要打开
③、OSS V4和V5版本,电脑的开机shfi F10 pxe模式设置中的Boot order要修改成PnP/BEV BBS模式(如清华同方的电脑,开机屏幕左上角会提示按Shift F10进入),如下图:

④、OSS V5要BIOS里开启传统Pxe rom(有的BIOS设置里为onboard lan boot rom),如下图,以清华同方、DELL、联想机器的BIOS设置为例。



⑤、OSS V4/V5 开机按CTRL H或insert 进入底层模式设置界面,legacy 和BIOS必须是N,如下图:


备注:以上模式修改方法,按大键盘的数字键和字母键修改,修改后按Q键退出即可保存。
⑥、OSS V5和V8,需BIOS设置里都将Fast boot即快速引导要关闭、硬盘模式AHCI、如果BIOS设置里Intel VMD和Intel 傲腾需关闭。
5、差异拷贝完成登录/发生数据时接收端掉线
5.1、掉线现象描述:一般有两种情况,第一种发送端点完成登录时部分或所有接收端掉线;第二种发送端给接收端同传传输过程中接收端掉线。当有接收端掉线后,发送端差异拷贝界面上会显示掉线数量,如下图:

5.2、网络相关方面排查思路
1) 拔掉外网:若机房有外网,先拔掉外网出口网线,再测试是否掉线;
2) 网线直连测试:用普通的网线直连发送端和接收端,测速是否掉线;
3) 修改交换机工作模式:若现场是Tplink、Dlink、华为交换机,其前面板上可手动切换交换机模式,切换到网络克隆或流控关闭模式,如下两图:


4) 关闭windows防火墙:若发送端采用的是windows上层差异拷贝,需关闭windows系统自带的防火墙;
5) 交换机断电:将机房所有交换机断电2到3分钟后,再通电测试否掉线
6) 最小化排查交换机网络:即若机房有多个交换机,断开交换机之间的级联线,先测试发送端所在的单个交换机内同传是否掉线,如果不掉线,再将另外一台交换机级联上测试同传,依次类推,逐步排查定位导致掉线的交换机或交换机端口即节点。如接上某一个交接同传就掉线,说明这个交换机或其中的端口异常导致掉线,然后再这个交换机上单独测试同传,可通过每次只10根网线,定位有问题的网络端口或节点。
7) 检查交换机配置:如华三即H3C和华为交换机需关闭流控(即广播、组播、多播抑制功能)和关闭交STP生成树;思考交换机需开启ip http server协议。
附思科交换机启用 ip http server方法 :交换机之前配置的是no ip http server,要执行 ip http server 启用,如下图:

5.3 机器硬件问题方面排查思路
1) 分析差异拷贝日志:若现象为部分机器掉线或发送端固定位置/进度百分比时掉线,可先查看上层差异拷贝日志,将日志发给噢易云客服。附OSS差异拷贝日志路径如下:
OSS V5差异拷贝程序日志路径:C:Program FilesOsEasyUpNetCopyAdvanNetCopy_sys.log;
OSS V8上层差异拷贝程序日志路径:C:Program FilesOsEasyRestore目录下的netclone_sys.log或winSend_sys.log;
2) 接收端硬盘问题:若固定的几台接收端掉线,且已排除非网络问题,将硬盘和正常机器对换,再同传测试是否掉线
3) 发送端硬盘问题:若现象为每次同传到固定的位置或进度百分百时掉线,很可能是发送端本身硬盘有问题,可尝试更换发送端测试。
4) 接收端机器BIOS设置:若表现为固定的部分接收端掉线,可尝试BIOS放电或恢复默认设置后,再按照OSS系统的要求重新设置BIOS,再测试是否掉线。如果排查了以上说的网络、硬盘方面,BIOS放电或恢复默认后还是不行,需考虑是否主板问题,可用以上的对换硬盘来排查确认。