帮助中心 广告联系

潜江资讯网 - 潜江在线,潜江教育、信息、新闻、租房、人才、二手房、咨询网

热门关键词:

Shikra:理解指向说出坐标多模态语言模型超进化

来源:原创/投稿/转载 发布时间:2023-07-02

  如果 MLLM 擅长这项技能,它将带来许多令人兴奋的应用。例如,将其应用到AppleVision Pro 等混合现实 (XR) 眼镜中,用户可以使用

  本工作提出了Shikra模型,赋予了MLLM这样的参考对话能力,既可以理解位置输入,也可以产生位置输出。

  1. Shikra能够理解用户输入的point/bounding box,并支持point/bounding box的输出,可以和人类无缝地进行参考对线. Shikra设计简单直接,采用非拼接式设计,不需要额外的位置编码器、前/后

  区域的 xy 坐标根据图像大小进行归一化。每个数字默认保留 3 位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。记录坐标的方括号也自然地出现在句子中。

  思想链(CoT),旨在通过在最终答案前添加推理过程以帮助LLM回答复杂的QA问题。这一技术已被广泛应用到自然语言处理的各种任务中。然而如何在多模态场景下应用CoT则尚待研究。尤其因为目前的MLLM还存在严重的幻视问题,CoT经常会产生幻觉,影响最终答案的正确性。通过在合成数据集CLEVR上的实验,我们发现,

本网转载作品的目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。如涉及作品内容、版权等问题,请联系我们进行修改或删除!