Shikra：理解指向说出坐标多模态语言模型超进化-潜江资讯网

　　如果 MLLM 擅长这项技能，它将带来许多令人兴奋的应用。例如，将其应用到AppleVision Pro 等混合现实 (XR) 眼镜中，用户可以使用

　　本工作提出了Shikra模型，赋予了MLLM这样的参考对话能力，既可以理解位置输入，也可以产生位置输出。

　　1. Shikra能够理解用户输入的point/bounding box，并支持point/bounding box的输出，可以和人类无缝地进行参考对线. Shikra设计简单直接，采用非拼接式设计，不需要额外的位置编码器、前/后

　　区域的 xy 坐标根据图像大小进行归一化。每个数字默认保留 3 位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。记录坐标的方括号也自然地出现在句子中。

　　思想链（CoT），旨在通过在最终答案前添加推理过程以帮助LLM回答复杂的QA问题。这一技术已被广泛应用到自然语言处理的各种任务中。然而如何在多模态场景下应用CoT则尚待研究。尤其因为目前的MLLM还存在严重的幻视问题，CoT经常会产生幻觉，影响最终答案的正确性。通过在合成数据集CLEVR上的实验，我们发现，

Shikra：理解指向说出坐标多模态语言模型超进化

最火资讯

热门频道推荐

相关功能