deepseek开源
视觉问答项目。什么是视觉问答VQA(Visual Question Answering)? 给定一幅图片及与图片相关的问题,系统通过理解图片回答这个问题,它涉及到图像识别和自然语言理解。
照片风格化。换成油画,卡通等等风格
图像去水印及修复。去除一张照片的水印,将一张缺损内容的照片修复,将一张模糊的照片,变得清晰
人物图生成。利用多张照片作为身份ID,获取人物特征,然后根据描述生成一个新的、个性化的人物图像。
让动画变高清。例如可以将动漫画面从1080p提升到2160p。
视觉迁移模型。谷歌发文介绍了其BigTransfer(BiT),称其为目前最先进的预训练模型,在分类问题中仅需要每个类少量几个样本即可达到极其优秀的性能。事实上,在ImageNet预训练的ResNet50系列模型是当前的工业标准,用于提取图像特征。在谷歌在论文 BigTransfer (BiT) 中分享的模型则可以轻松打败ResNet50,尽管数据量很少。