关于VQ-GAN利用滑动窗口生成 高清图像

news/2024/12/23 16:26:01 标签: 生成对抗网络, 人工智能, 神经网络

参考文章:VQGAN 论文与源码解读:前Diffusion时代的高清图像生成模型 | 周弈帆的博客

概念补充:所谓“高清”,就是像素很多,比如,512x512就比64x64要高清很多

请仔细琢磨上面的这几句话即可。

(1)其实那个生成16x16的压缩的部分,这里还没有说,原来是采用PixelCNN采样得到的这个16x16的压缩的块

-不过有一种可能就是,这个Transformer里面也会有一个bos_token用于采样第一个16x16的图像块。

(2)其实,这里说道的 sliding windows滑动窗口,其实就是 限定“上下文长度”的Transformer。而且,这里的窗口里面的输入、输出:只要你理解了原本Transformer.decoder里面的输入和输出是fixed length的,应该就能明白这里的意思了。


http://www.niftyadmin.cn/n/5796753.html

相关文章

【conda】使用 conda 安装的 cuda-toolkit 时,安装的版本与指定版本不一致

【conda】使用 conda 安装的 cuda-toolkit 时,安装的版本与指定版本不一致 1 问题描述2 channel 介绍2.1 conda-forge2.2 nvidia2.2.1 cuda-toolkit 3 原因4 解决方法 1 问题描述 参考博客: Link 与参考博客的问题相似,我本机是 cuda 11.8,使…

数位dp-acwing(数字游戏)

题目:数字游戏 1082. 数字游戏 - AcWing题库 分析: 前缀和思想: dp(m) - dp(n-1) 用树的角度分析。 比最高位小的, 左分支讨论,等于最高位的进入右分支,(同时进入右分支有条件,就是当前位最…

【C语言】动态内存管理:详解malloc和free函数

前言 在C语言编程中,动态内存分配是一个非常重要的概念。与静态内存分配不同,动态内存分配允许程序在运行时根据需要分配和释放内存,从而更加灵活地管理内存资源。特别是在一些数据结构的引用中经常需要使用,下面我们就详细讲解一…

LeetCode 583. 两个字符串的删除操作 java题解

https://leetcode.cn/problems/delete-operation-for-two-strings/ 用最长公共子序列的做法。先求出他两的最长公共子序列,这部分是要保留的。字符串中除了这部分的字符,其他字符都需要删除。 class Solution {public int minDistance(String word1, St…

linux----文件访问(c语言)

linux文件访问相关函数 打开文件函数 - open 函数原型:int open(const char *pathname, int flags, mode_t mode);参数说明: pathname:这是要打开的文件的路径名,可以是绝对路径或者相对路径。例如,"/home/user/…

机器学习(二)-简单线性回归

文章目录 1. 简单线性回归理论2. python通过简单线性回归预测房价2.1 预测数据2.2导入标准库2.3 导入数据2.4 划分数据集2.5 导入线性回归模块2.6 对测试集进行预测2.7 计算均方误差 J2.8 计算参数 w0、w12.9 可视化训练集拟合结果2.10 可视化测试集拟合结果2.11 保存模型2.12 …

tslib(触摸屏输入设备的轻量级库)的学习、编译及测试记录

目录 tslib的简介tslib的源码和make及make install后得到的文件下载tslib的主要功能tslib的工作原理tslib的核心组成部分tslib的框架和核心函数分析tslib的框架tslib的核心函数ts_setup()的分析(对如何获取设备名和数据处理流程的分析)函数ts_setup()自身的主要代码ts_setup()对…

材料性质预测、分子生成、分类等研究方向的大语言模型构建与应用

流程 数据准备 收集和预处理大规模材料相关数据集。格式化数据以适应模型输入。 模型预训练 基于Transformer架构进行大规模无监督预训练。任务:掩码语言模型(MLM)或自回归生成任务。 任务微调 针对特定任务(性质预测、分子生成、…