deepseek开源
推荐系统项目。
人物图生成。利用多张照片作为身份ID,获取人物特征,然后根据描述生成一个新的、个性化的人物图像。
目标检测,物体识别
阿里大模型开源
视觉问答项目。什么是视觉问答VQA(Visual Question Answering)? 给定一幅图片及与图片相关的问题,系统通过理解图片回答这个问题,它涉及到图像识别和自然语言理解。
让视频换成你想说的话。他的功能,就是上传一段视频,再上传一段音频,算法会让视频中的人物说出音频文件的内容。 通过机器学习让发音与嘴型进行匹配。