Skip to content

OOM error #18

@SakurajimaMaiii

Description

@SakurajimaMaiii

报告一个oom的error,这个问题在大多数GPU可能没有,但是如果你用的是 4090 这种24G显存的显卡会遇到。

Prism_Evaluation/Eval_CapRL.py 中,190 行

reward_llm = LLM(model=args.reward_model_path, tensor_parallel_size=args.gpu_num, gpu_memory_utilization=0.95)

CapRL-Eval-3Bpreprocessor_config.json 中,max_pixels 被设置成了12845056,但是 CapRL-3B 中是 1000000。这会导致在单卡4090上运行的时候,启动 reward_llm 会OOM 而 CapRL-3B 不会,简单的修复方法如下:

reward_llm = LLM(
            model=args.reward_model_path,
            tensor_parallel_size=args.gpu_num,
            gpu_memory_utilization=0.95,
            mm_processor_kwargs={
        "max_pixels": 100 * 28 * 28, 
    },

max_pixels设置小点就行了,因为这个阶段不需要读图片。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions