请问demo用的base模型跟本项目给的CN-CLIP（ViT-B/16）是同一个模型吗？跟我本地的测试结果不太一样 #306

xiuxiuxius · 2024-04-24T02:06:55Z

1.我准备了一些语句，都是返回张数不足50张的语句：

抱着孩子的男人
背包的女人
戴眼镜的男人
骑自行车的孩子
一个走在公园里的女孩
一群走在山里的男人
在河边的金发少女
包饺子
亲子活动
踏青
提行李箱的男人
在清晨跑步的女人
在水里盛开的花
在田野里的狗

2.先是在demo里搜索，参数如下，并利用chrome的插件imageye，把返回的图片都下载下来：

返回图片数：50张，模型：中文CLIP(Base)，返回缩略图：否
因为不同语句搜到的图片存在重复，所以我通过hash值进行了重命名，并用一张表保存每张图对应的语句列表

3.把这些图片都加入一个新的向量库，在本地构建的搜索接口测试搜索：

图片和文本都是用的clip-vit-b-16进行向量化，利用余弦相似度进行降序，阈值0.2，结果是，返回的图片并不完全一样，大部分是差个一两张，但是“踏青”，结果差了9张图。详细见下图

xiuxiuxius changed the title ~~请问demo用的base模型跟本项目给的CN-CLIPViT-B/16是同一个模型吗？跟我本地的测试结果不太一样~~ 请问demo用的base模型跟本项目给的CN-CLIP（ViT-B/16）是同一个模型吗？跟我本地的测试结果不太一样 Apr 24, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问demo用的base模型跟本项目给的CN-CLIP（ViT-B/16）是同一个模型吗？跟我本地的测试结果不太一样 #306

请问demo用的base模型跟本项目给的CN-CLIP（ViT-B/16）是同一个模型吗？跟我本地的测试结果不太一样 #306

xiuxiuxius commented Apr 24, 2024 •

edited

请问demo用的base模型跟本项目给的CN-CLIP（ViT-B/16）是同一个模型吗？跟我本地的测试结果不太一样 #306

请问demo用的base模型跟本项目给的CN-CLIP（ViT-B/16）是同一个模型吗？跟我本地的测试结果不太一样 #306

Comments

xiuxiuxius commented Apr 24, 2024 • edited

1.我准备了一些语句，都是返回张数不足50张的语句：

2.先是在demo里搜索，参数如下，并利用chrome的插件imageye，把返回的图片都下载下来：

3.把这些图片都加入一个新的向量库，在本地构建的搜索接口测试搜索：

xiuxiuxius commented Apr 24, 2024 •

edited