[帮助]Mirauge3D多节点并行失败排查方法



  • Mirauge3D多节点并行失败排查方法

    分为以下两种情况:

    (1)M3Engine与主机无法建立连接;

    (2)M3Engine与主机能够正常连接,但是在运算分块任务时,出现错误或提示FailedToStart等。

    1.无法建立连接

    节点与主机之间通过UDP/TCP通信建立连接。

    (1)检查节点机或主机上是否有虚拟机以及多个网卡,如是,禁用虚拟机及其他网卡。

    (2)检查机器防火墙是否关闭。

    (3)通过命令行 ping命令检查机器之间通信情况。

    2.运算分块失败

    (1)检查是否从共享目录打开的软件,如:\10.115.5.220\software\Mirauge3D\Mirauge3D.exe

    (2)检查工程是否建立在共享目录下,如\10.115.5.220\data\pri_test.m3d,检查方法为用文本编辑器打开.M3D文件,检查里面的路径是否均为类似\10.115.5.220\data\的网络路径(而不能是如F:\data\)。

    (3)多节点并行空三时检查Mirauge3D安装目录下,AT\M3ATRecon.exe是否存在,并双击打开查看是否提示缺少dll文件,有时其会被杀毒软件删掉。如存在被删掉的情况,重新安装M3D,并卸载杀毒软件。

    (4)检查节点机上是否安装Support目录下的各项驱动(包括VS的三个驱动以及加密狗驱动)。

    (5)检查节点机上的软件狗客户端上能否看到许可信息(或直接在节点机上点击Mirauge3D.exe,看是否能正常打开,能正常打开则说明该机器上许可没问题。否则需要配置许可信息)

    (6)检查节点机是否能访问存放M3D软件安装文件的共享目录,在局域网内,软件一般仅安装在一个共享路径下(如\10.115.5.220\software\Mirauge3D\),其他节点机上仅安装Support目录下的驱动。

    (7)检查节点机是否能访问存放影像数据的共享目录。

    (8)检查节点机是否能访问存放工程的共享目录。打开工程目录下的*.M3D,*.Lst文件,检查里面的路径是否为网络路径(如,\10.115.5.220\data1之类,并在节点机的文件夹浏览器上方输入\10.115.5.220\data1按Enter看能否访问)。

    (9)检查节点机的电源选项是否为“高性能”。

    (10)如果使用的Mirauge3D.exe (而不是Mirauge3D_CPU.exe),则检查节点机电源选项是否是“高性能”,检查Nvidia控制面板->“管理3D设置” 以及 “设置PhysX配置” 是否都是使用的独立显卡。

    (11)机器上是否同时开启了多个M3Engine(只能开启一个)。

    (12)如果同一个局域网内,同一个工程,有的节点能正常运行,而另有些节点不能正常运行,很可能是软件、工程、数据路径使用了路径映射,如把\10.115.5.220\data1映射成了R:/DATA/,而无法正常运行的节点上因未进行路径映射导致无法访问,解决办法:所有节点都进行路径映射;或者,关闭工程,删除.tsk文件,修改.lst中的路径为\10.115.5.220\data1的形式,在\10.115.5.220\data1形式的路径中打开Mirauge3D.exe并重新加载工程,提交空三。


Log in to reply