关于VQ-GAN利用滑动窗口生成高清图像

news/2024/12/23 16:26:01 标签: 生成对抗网络, 人工智能, 神经网络

参考文章：VQGAN 论文与源码解读：前Diffusion时代的高清图像生成模型 | 周弈帆的博客

概念补充：所谓“高清”，就是像素很多，比如，512x512就比64x64要高清很多

请仔细琢磨上面的这几句话即可。

（1）其实那个生成16x16的压缩的部分，这里还没有说，原来是采用PixelCNN采样得到的这个16x16的压缩的块

-不过有一种可能就是，这个Transformer里面也会有一个bos_token用于采样第一个16x16的图像块。

（2）其实，这里说道的 sliding windows滑动窗口，其实就是限定“上下文长度”的Transformer。而且，这里的窗口里面的输入、输出：只要你理解了原本Transformer.decoder里面的输入和输出是fixed length的，应该就能明白这里的意思了。

http://www.niftyadmin.cn/n/5796753.html

【conda】使用 conda 安装的 cuda-toolkit 时，安装的版本与指定版本不一致

【conda】使用 conda 安装的 cuda-toolkit 时，安装的版本与指定版本不一致 1 问题描述2 channel 介绍2.1 conda-forge2.2 nvidia2.2.1 cuda-toolkit 3 原因4 解决方法 1 问题描述参考博客: Link 与参考博客的问题相似，我本机是 cuda 11.8，使…

数位dp-acwing（数字游戏）

题目：数字游戏 1082. 数字游戏 - AcWing题库分析： 前缀和思想: dp(m) - dp(n-1) 用树的角度分析。比最高位小的， 左分支讨论，等于最高位的进入右分支，（同时进入右分支有条件，就是当前位最…

【C语言】动态内存管理：详解malloc和free函数

前言在C语言编程中，动态内存分配是一个非常重要的概念。与静态内存分配不同，动态内存分配允许程序在运行时根据需要分配和释放内存，从而更加灵活地管理内存资源。特别是在一些数据结构的引用中经常需要使用，下面我们就详细讲解一…

LeetCode 583. 两个字符串的删除操作 java题解

https://leetcode.cn/problems/delete-operation-for-two-strings/ 用最长公共子序列的做法。先求出他两的最长公共子序列，这部分是要保留的。字符串中除了这部分的字符，其他字符都需要删除。 class Solution {public int minDistance(String word1, St…

linux----文件访问（c语言）

linux文件访问相关函数打开文件函数 - open 函数原型：int open(const char *pathname, int flags, mode_t mode);参数说明： pathname：这是要打开的文件的路径名，可以是绝对路径或者相对路径。例如，"/home/user/…

机器学习(二)-简单线性回归

文章目录 1. 简单线性回归理论2. python通过简单线性回归预测房价2.1 预测数据2.2导入标准库2.3 导入数据2.4 划分数据集2.5 导入线性回归模块2.6 对测试集进行预测2.7 计算均方误差 J2.8 计算参数 w0、w12.9 可视化训练集拟合结果2.10 可视化测试集拟合结果2.11 保存模型2.12 …

tslib(触摸屏输入设备的轻量级库)的学习、编译及测试记录

目录 tslib的简介tslib的源码和make及make install后得到的文件下载tslib的主要功能tslib的工作原理tslib的核心组成部分tslib的框架和核心函数分析tslib的框架tslib的核心函数ts_setup()的分析(对如何获取设备名和数据处理流程的分析)函数ts_setup()自身的主要代码ts_setup()对…

材料性质预测、分子生成、分类等研究方向的大语言模型构建与应用

流程数据准备收集和预处理大规模材料相关数据集。格式化数据以适应模型输入。模型预训练基于Transformer架构进行大规模无监督预训练。任务：掩码语言模型（MLM）或自回归生成任务。任务微调针对特定任务（性质预测、分子生成、…

关于VQ-GAN利用滑动窗口生成 高清图像

相关文章

关于VQ-GAN利用滑动窗口生成高清图像