如果 MLLM 擅长这项技能,它将带来许多令人兴奋的应用。例如,将其应用到AppleVision Pro 等混合现实 (XR) 眼镜中,用户可以使用 本工作提出了Shikra模型,赋予了MLLM这样的参考对话能力,既可以理解位置输入,也可以产生位置输出。 1. Shikra能够理解用户输入的point/bounding box,并支持point/bounding box的输出,可以和人类无缝地进行参考对线. Shikra设计简单直接,采用非拼接式设计,不需要额外的位置编码器、前/后 区域的 xy 坐标根据图像大小进行归一化。每个数字默认保留 3 位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。记录坐标的方括号也自然地出现在句子中。 思想链(CoT),旨在通过在最终答案前添加推理过程以帮助LLM回答复杂的QA问题。这一技术已被广泛应用到自然语言处理的各种任务中。然而如何在多模态场景下应用CoT则尚待研究。尤其因为目前的MLLM还存在严重的幻视问题,CoT经常会产生幻觉,影响最终答案的正确性。通过在合成数据集CLEVR上的实验,我们发现, |