人工智能换脸。
视觉问答项目。什么是视觉问答VQA(Visual Question Answering)? 给定一幅图片及与图片相关的问题,系统通过理解图片回答这个问题,它涉及到图像识别和自然语言理解。
视觉迁移模型。谷歌发文介绍了其BigTransfer(BiT),称其为目前最先进的预训练模型,在分类问题中仅需要每个类少量几个样本即可达到极其优秀的性能。事实上,在ImageNet预训练的ResNet50系列模型是当前的工业标准,用于提取图像特征。在谷歌在论文 BigTransfer (BiT) 中分享的模型则可以轻松打败ResNet50,尽管数据量很少。
人脸属性替换。例如换个鼻子嘴巴,甚至肤色和性别,通过StarGAN v2可是轻松的识别人脸属性, 并精准替换,肉眼都难以发现破绽。
拍照做题。输入一张包含数学计算题的图片,输出识别出的数学计算式以及计算结果。 请查看系统文档说明来运行程序。注意,这是一个半开源的项目,目前上传的版本只能处理简单的一维加减乘除算术表达式(如果想要识别更加复杂的表达式,可以参考数学公式识别的论文)。可以参考的代码是前面字符识别部分以及整个算法处理框架。
涂鸦变实物。我们画一幅涂鸦,用颜色区分每一块对应着什么物体,它就能照着我们的空间布局思路,合成以假乱真的真实世界效果图。 在AI界这叫做叫“语义布局”。
小图无损放大。