Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问demo用的base模型跟本项目给的CN-CLIP(ViT-B/16)是同一个模型吗?跟我本地的测试结果不太一样 #306

Open
xiuxiuxius opened this issue Apr 24, 2024 · 0 comments

Comments

@xiuxiuxius
Copy link

xiuxiuxius commented Apr 24, 2024

1.我准备了一些语句,都是返回张数不足50张的语句:

抱着孩子的男人
背包的女人
戴眼镜的男人
骑自行车的孩子
一个走在公园里的女孩
一群走在山里的男人
在河边的金发少女
包饺子
亲子活动
踏青
提行李箱的男人
在清晨跑步的女人
在水里盛开的花
在田野里的狗

2.先是在demo里搜索,参数如下,并利用chrome的插件imageye,把返回的图片都下载下来:

返回图片数:50张,模型:中文CLIP(Base),返回缩略图:否
因为不同语句搜到的图片存在重复,所以我通过hash值进行了重命名,并用一张表保存每张图对应的语句列表

3.把这些图片都加入一个新的向量库,在本地构建的搜索接口测试搜索:

图片和文本都是用的clip-vit-b-16进行向量化,利用余弦相似度进行降序,阈值0.2,结果是,返回的图片并不完全一样,大部分是差个一两张,但是“踏青”,结果差了9张图。详细见下图
image

@xiuxiuxius xiuxiuxius changed the title 请问demo用的base模型跟本项目给的CN-CLIPViT-B/16是同一个模型吗?跟我本地的测试结果不太一样 请问demo用的base模型跟本项目给的CN-CLIP(ViT-B/16)是同一个模型吗?跟我本地的测试结果不太一样 Apr 24, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant