文搜图,视频
从图中识别文字。PaddleOCR是百度PaddlePaddle开源框架的代表作品;Github 获得6000多个star! OCR 是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简单地称为文字识别,是文字自动输入的一种方法。
视觉迁移模型。谷歌发文介绍了其BigTransfer(BiT),称其为目前最先进的预训练模型,在分类问题中仅需要每个类少量几个样本即可达到极其优秀的性能。事实上,在ImageNet预训练的ResNet50系列模型是当前的工业标准,用于提取图像特征。在谷歌在论文 BigTransfer (BiT) 中分享的模型则可以轻松打败ResNet50,尽管数据量很少。
SD高级界面。ComfyUI 是一个基于节点流程式的stable diffusion AI 绘图工具WebUI。通过将stable diffusion的流程拆分成节点,实现了更加精准的工作流定制和完善的可复现性。但节点式的工作流也提高了一部分使用门槛。 同时,因为内部生成流程做了优化,生成图片时的速度相较于webui又10%~25%的提升(根据不同显卡提升幅度不同),生成大图片的时候不会爆显存,只是图片太大时,会因为切块运算的导致图片碎裂。
使相片变高清
自动驾驶项目。
deepseek开源