英伟达 GeForce 256

一、nVIDIA GeForce 256（论文文献综述）

张静^[1]（2021）在《依靠存算一体，AI芯片翻越“两面墙”》文中研究表明存算一体技术是新的AI芯片方向,它可以整合逻辑单元和存储单元,直接在存储单元内部运算,缓解数据搬运问题,降低能耗。上世纪四十年代,冯·诺伊曼架构开启了计算机系统结构发展的先河。在传统冯·诺伊曼架构下,计算和存储分离。不管处理器运行多快、性能多好,每次执行运算时都需要把数据从存储器搬到处理器中,数据处理完再搬回到存储器。

陶堃^[2]（2021）在《基于GPU的无人机影像拼接关键技术研究》文中研究表明现今,与无人机相关的技术发展十分迅速,尤其是利用无人机搭载高清摄像头获取影像数据,已被广泛应用,但是单幅无人机图像无法展示一个完整区域的具体内容。为了获取分辨率更高、视场角更大的无人机影像,本文对无人机影像拼接技术进行了研究,并利用GPU框架对拼接过程进行加速。另外,在雾天环境下进行无人机航拍会极大地影响图像的成像质量,而且会出现图像特征信息模糊的问题,这可能导致之后无法正常地进行特征点提取。本文考虑了对无人机图像进行去雾预处理,研究了图像去雾的方法。具体研究内容归纳如下:（1）在雾天环境下获取到的无人机图像会出现特征信息模糊的现象,甚至无法正常提取特征点。为了更好地对有雾的无人机图像进行特征点提取,本文提出了基于暗通道的自适应图像去雾方法,在大气散射模型基础上,对天空区域和非天空区域进行分割,天空区域使用颜色衰减先验,非天空区域使用改进暗通道先验求解透射率,最后用加权导向滤波对图像进行平滑处理。实验结果表明,无论从主观和客观评价上,本文提出的算法较其他经典算法,在去雾处理后效果更好,能够尽可能多的保持物体的细节,为之后的特征点提取打下基础。（2）传统SURF方法仅使用CPU进行运算,导致其运行时间长。另外,传统SURF方法特征点匹配正确率低。为了提高图像拼接过程的计算速度,并确保图像特征点匹配的正确率,在对传统的SURF算法进行分析后,本文提出了FSURF算法。该算法结合GPU高度并行的架构,将SURF算法中积分图像计算、特征点提取、特征点描述这些并行度高的计算过程使用GPU进行加速运算;特征点匹配过程采用了双向快速近似最近邻算法来对特征点进行粗匹配,并利用PROSAC算法来进行去误匹配。实验结果表明,FSURF算法的运行速度较传统SURF算法更快,且匹配正确率比传统算法要高,匹配效果有提升。（3）由于两幅待拼接图像的曝光度不同,传统最优缝合线算法融合后的图像在重叠区域存在色彩突变,会出现一条较明显的拼接裂缝。为了消除色彩突变,本文对最佳缝合线算法进行改进,在寻找到最佳缝合线后,使用加权融合算法对缝合线两侧进行平滑,使得拼接后的图像过渡更自然。

丁立德^[3]（2020）在《支持国产计算平台的深度学习加速技术研究》文中指出深度学习作为人工智能技术中的重要组成部分,在各类行业中有着广泛的应用场景,而计算装备的国产化,在当前的国际形势下具有十分重要的战略意义。国产计算平台下的深度学习目前缺乏可用的计算加速设备,导致应用推广较为困难。针对此问题,本文深入研究了深度学习中训练与推理两个过程,实现了两种支持国产计算平台的深度学习的加速技术:国产计算平台的GPU加速技术和国产FPGA卷积神经网络优化技术。这两项技术对于支撑国产计算平台上的深度学习应用具有重大意义。本文主要的工作如下:第一,通过阅读文献资料,了解深度学习在国产计算平台上的加速环境与加速硬件的现状及存在的问题,明确了两种加速技术的实现途径。第二,研究主流GPU通用运算平台的技术结构,针对国产计算平台的特点,选择合适的GPU,通过交叉编译、内核模块替换与系统环境变量设置等技术途径,实现了从源码级别构建支持国产计算平台的GPU通用运算环境。第三,针对国产FPGA逻辑资源不足与深度学习计算需求之间的矛盾,通过矩阵压缩与数据量化两种方法对深度学习中的卷积神经网络进行优化处理,在国产FPGA上实现了对VGG卷积神经网络的优化。实验表明,在国产计算平台上使用GPU加速技术和国产FPGA加速技术,二者的计算效率相较国产CPU分别提升了 48倍与284倍,成功地实现了深度学习的加速计算,推进了深度学习在国产计算平台上广泛应用的进程。

魏依萌^[4]（2018）在《基于GPU加速的Adaboost车辆检测技术研究》文中研究表明随着计算机科学技术的迅速发展,智能视频监控分析成为当下研究的热点之一,对目标进行检测是智能视频监控的关键技术。Adaboost（Adaptive Boosting,自适应增强学习）是当前在智能视频监控领域应用十分广泛的一种目标检测算法。相比于其他复杂的人工智能算法,Adaboost算法对设备要求较低,因此应用广泛。同时随着相关技术的提升,监控视频的分辨率也在逐渐提高,对视频中目标的检测过程所需要的数据量随之增大,对检测的实时性提出了考验。GPU（Graphics Processing Unit,图形渲染芯片）原本是用以处理图像的硬件设备,它具备出众的通用计算能力,因此近年来被广泛应用于图形图像处理以外的数据计算领域。本文借助GPU的通用计算能力,对Adaboost车辆检测算法进行优化,缩短车辆检测时间、提高车辆检测效率,对不同分辨率的车辆图像进行目标检测速度测试,并在实际场景中进行检测加速实验。本文主要研究工作如下:（1）对Adaboost车辆检测算法进行分析,针对计算量较大的部分提出并行化优化方案,利用GPU硬件设备,借助CUDA（Compute Unified Device Architecture,统一计算设备架构）,利用GPU硬件中的全局存储器和共享存储器以及合并访存机制等优化加速手段,对检测速度进行提升,并对能够被加速计算的部分有针对性地进行加速比的实验对比,实验证明,颜色空间转换等部分在并行优化后都能够达到较好的加速效果;（2）对一般场景下的单帧车辆图像进行检测,并分析不同分辨率的图像对检测计算加速比的影响,实验证明,随着待检图像分辨率的提升,普通算法的检测时间急剧上升,而并行优化后的检测算法的检测时间上升平缓,因此加速比更加明显;（3）将优化后的Adaboost车辆检测算法应用到道路监控和加油站监控等实际监控场景中,对不同分辨率的监控视频进行车辆目标检测和加速效果的测试,实验证明,并行优化后的Adaboost车辆检测算法在保持与原算法基本一致的检测效果的基础上,在实际监控场景中也能够取得较好的加速效果,一般能取得5到9倍的加速比,并随着视频分辨率的增加而取得更好的加速效果。实验表明利用GPU的硬件结构进行对Adaboost算法的速度优化能够取得显着的加速效果,随着所处理图像的分辨率提高,其检测加速效果也随之提高;其加速效果并在实际监控视频环境中也得到了验证,对于现阶段性能有限的工程设备而言能够以较低的投入得到良好的加速效果。

脑极体^[5]（2019）在《GTC 2019,英伟达和它叫不醒的To B梦》文中进行了进一步梳理在极度商业化的今天,科技的进步与企业的名字一定是分不开的。每当我们想要盘点一下AI时代的幸运儿,"英伟达"绝对会自然而然地第一个出现。原因可能是,它就像通讯时代的AT&T,计算机时代的Wintel,互联时代的google,和移动时代的苹果一样,在全球范围内统治着自己所在的产业,只要不犯错,就可以吃着技术和时代的红利顺顺当当地过上好几年。

李壮^[6]（2019）在《基于分布式存储的大规模场景并行光路追踪方法》文中指出数字创意产业是现代信息技术与文化创意、设计服务逐渐融合后的新兴经济形态,被国家列为重点培育的五大战略性新兴产业之一。图像渲染是数字创意产业的关键支撑技术之一,也是最耗时的环节。真实感渲染由于需要处理复杂的光照模型,渲染一幅图片需要数小时的时间,而完成一部动漫作品的时间将达到千万小时。随着产业的发展,用于渲染的场景的复杂度越来越高,渲染结果要求的精细度也在提高。如何充分利用现有的数字仿真成果和计算机的计算能力,更好更快地得到渲染结果,已经成为高度真实感渲染领域的迫切需求。超级计算机是具有远超个人电脑计算能力的一种计算机,超级计算机已经广泛应用于需要大量计算的科研、国防和商业领域。利用超级计算机对渲染应用进行并行加速,是一个研究方向,由于渲染计算兼具计算量高数据量大的特点,在超级计算机上进行渲染研究也具有很大的挑战。本文的研究和开发就是在神威·太湖之光超级计算机上进行的。高真实感的渲染结果和宏大的视觉效果,对场景建模精度和场景规模的要求也在提高。光路追踪算法需要将场景数据全部加载到内存才能进行光线和场景中物体的求交检测,日益增长的模型复杂度对实现高效可扩展的光路追踪算法带来挑战。为解决这一问题,基于内外存调度的光路追踪和基于分布式内存的光路追踪方法被提出。其中,内外存调度通过将绘制要用到的局部数据从外存加载到内存,通过内外存数据交换来实现复杂模型的渲染,存在数据局部性和存储层次传输带宽的瓶颈,扩展性不足;分布式内存光路追踪方法通过将场景数据分布式存储到不同节点的内存,从而实现大规模场景的绘制。这两类方法目标均是在提高计算资源的利用率的同时,提升数据的局部化,从而提高并行效率。目前,如何在减少数据获取开销的同时,保证光线计算任务的负载均衡,依然是一个具有挑战的问题。本文基于神威·太湖之光高性能计算机,提出基于分布式内存系统的大规模场景并行光路追踪方法,通过高效的场景划分方式,将场景的几何数据分散到多个节点进行存储,并基于分布式存储场景实现并行光照计算。本文提出四种场景划分和分布式存储发方法,包括场景随机化划分和存储方法、基于场景几何对象大小的均衡场景划分的存储方法、基于莫顿码的场景分散划分和存储方法、基于莫顿码的场景集中划分和存储方法,并比较了四种分布式存储场景的光路追踪并行效率。此外,本文利用非阻塞通信和双缓冲策略对各个节点间的通信进行了优化,从而在保证光路追踪算法强扩展性的同时,提升算法弱扩展性。实验结果表明,本文方法可以有效渲染100GB以上的超大规模场景,在30万核下,相对于5万核,程序整体的并行效率可达50%以上。四种划分存储方法中,基于莫顿码的场景集中划分和存储方法光路追踪用时最少,基于文件大小的划分存储方法读取文件和建树所用时间最少。本文的方法在场景数据规模和光线计算任务并行两方面,都具有良好的扩展性。本文的创新主要是将莫顿编码与几何模型划分相结合,提出基于莫顿码的场景几何集中划分方法,提升了构建的KD的质量,减少了光路追踪求交计算的时间。

朱永贵,张佳佳,华敏杰^[7]（2018）在《探究GPU对神经网络的加速作用》文中进行了进一步梳理随着人工智能的不断发展,神经网络在计算机视觉和自然语言处理中的应用越来越广泛。但是,由于神经网络的计算密集,单用CPU进行运算非常耗时,因此,通过GPU对神经网络进行加速具有很强的现实意义。本文首先对GPU的发展现状、物理架构及其与CPU在计算特性上的差别进行阐述,然后探究其对神经网络的加速作用。

李泽鹏^[8]（2017）在《基于CUDA并行粒子群的Pt-Pd合金纳米粒子结构优化研究》文中研究指明Pt-Pd合金纳米粒子在催化性能和光学性能上有着其他合金纳米粒子不可比拟的优势,因此对其进行全面的研究具有重要意义。目前,有很多智能算法应用于求解合金纳米粒子结构,例如粒子群算法和差分进化算法。在原子规模较小时,这些智能算法均能取得较为满意的结果,但随着原子规模的增加,计算量的大幅度提高,算法计算时间过长是亟待解决的问题。本文针对该问题提出了一种基于CUDA的并行粒子群算法。本文主要研究内容包括:本文采用QSC多体势描述Pt-Pd合金纳米粒子中原子间相互作用,以该势能函数的能量最小值作为求解指标,参考了改进粒子群算法在该问题上的求解应用,并提出了一种基于种群的粗粒度和基于原子的细粒度混合并行算法,结合问题具体特征,设计了种群-线程块二维编码方式,使得算法具有良好的扩展性,同时结合了 GPU的硬件特性,在保证运算效率最优的前提下选择了合理的最佳线程数,并采用合并访问技术提高了数据传输的速度,进一步提高运算效率。为了验证该算法的有效性,本文对不同尺寸的Pt:Pd=1:1比例的合金纳米粒子进行求解,同时采用了三个不同的指标进行验证,分别是等规模等迭代次数、等规模等求解精度、等规模等终止条件。同时我们也对算法的收敛性和稳定性进行了多次独立重复实验验证。实验结果表明本文所提出的基于CUDA的并行粒子群算法对合金纳米粒子结构优化的求解是有效的、稳定的。本文所提出的基于CUDA并行粒子群算法对大规模原子的合金纳米粒子结构优化有一定指导意义,对其他智能算法的并行化也具备参考作用。

郑诗雨^[9]（2018）在《基于GPU的机载预警雷达信号处理方法实现》文中研究说明机载预警雷达空时自适应处理（STAP）需要一定数量的独立同分布训练样本来估计杂波协方差矩阵,这在城市、山区等非均匀杂波场景下难以满足。独立同分布样本数目的不足会导致杂波抑制性能剧烈下降,进而影响到机载预警雷达系统的目标检测性能、航迹跟踪质量,因此亟需能够在非均匀杂波场景下有效抑制杂波的算法,在上述背景下知识辅助空时自适应处理（KA-STAP）算法受到了广泛的关注。知识辅助空时自适应处理算法通过感知杂波环境获取场景的先验信息,从而利用先验知识减少样本数不足对杂波协方差矩阵估计的影响。知识辅助空时自适应处理能够在杂波场景非均匀情况下保证杂波抑制的效果。机载预警雷达探测范围广、场景复杂、目标数量多,因此其信号与数据处理过程计算量大,实时性要求高。上述因素综合决定了机载预警雷达需要计算能力非常强的信号处理系统。GPU具有超强的浮点运算能力和强大的并行能力,能够保证机载预警雷达信号处理系统具有较高的运算速度。近年来,以GPU为基础实现高速雷达信号处理已成为重要的研究方向。本文针对知识辅助空时自适应处理问题以及基于GPU平台的机载预警雷达信号处理方法进行深入研究,主要工作内容如下所示:1.针对非均匀环境下空时自适应处理的问题,研究基于动态感知的知识辅助空时自适应处理方法,该方法通过实时感知环境信息,缓解环境知识与实际环境失配问题。上述算法的核心思想是:首先通过发射正交波形感知杂波场景,重构场景的杂波散射系数,然后通过获得的杂波散射系数重构未来一段时间内的杂波协方差矩阵,最后利用重构的杂波协方差矩阵生成空时自适应滤波器。仿真实验证明,在非均匀环境下上述知识辅助空时自适应算法比3DT算法杂波抑制性能好。本文使用交替方向乘子算法（ADMM）求解KA-STAP算法的稀疏重构问题,相对使用CVX工具包缩短了计算时间。2.简单阐述了GPU特点以及相对于CPU的优势,然后从执行模型、编程模型、硬件模型三个方面详细描述了用于GPU编程的CUDA架构,最后简要介绍了GPU以及MATLAB混编的实现方法。3.简要介绍以GPU为基础的机载预警雷达信号处理算法的并行化实现方法,主要包含回波仿真、匹配滤波、杂波抑制、恒虚警率检测等模块。为了适应更多的杂波场景,杂波抑制模块对经典的3DT算法以及基于动态感知的KA-STAP算法实现了并行化。进行仿真实验保证结果相同的前提下,相对于CPU串行方法,GPU加速算法能够提高机载预警雷达信号处理的效率,并且数据规模愈大GPU优势愈显着。

董亦博^[10]（2018）在《基于PYNQ的图像视觉显着性检测系统设计》文中进行了进一步梳理随着多媒体在物联网中应用的日益广泛,海量图像数据给物联网节点端的信息上传、服务器端的信息处理带来了极大的压力,如何在物联网节点端提取图像中的有价值信息成为物联网感知层信息处理的热点研究方向。在上述背景下,本课题在人类视觉选择注意机制的启发下,设计了一种嵌入式图像视觉显着性检测系统,该系统能够在感知节点端完成图像数据的显着性信息提取,进而降低图像的信息冗余度。论文的主要研究内容如下:首先,在深入分析设计要求的基础上,基于软硬件协同设计思想,完成了视觉显着性检测系统总体方案的设计。在总体方案设计中,考虑到本系统在视觉显着性检测算法实现与加速方面的双重需求,选用了异构处理器平台PYNQ作为系统的嵌入式平台。在此基础上,面向视觉显着性检测系统的内部功能需求,结合对PYNQ平台硬件资源的分析,将系统功能合理分配至平台的各处理单元并明确了系统设计过程中的核心问题。其中,将视觉显着性检测算法的实现任务分配至ARM处理器完成,将算法加速任务和图像输入输出逻辑控制任务分配至FPGA处理器完成,将异构处理器之间的信息交互任务分配至DMA控制器完成。其次,为了改善显着性检测系统的算法性能,本课题研究了图像的视觉显着性检测算法,并完成了基于ARM的算法实现。针对目前经典视觉显着性算法算子单一且检测准确率不高的问题,本课题使用了边界连通性算子与区域对比度算子优化融合的显着性检测方法,通过仿真验证,该方法能够有效提高检测准确率,实现预期目标,在此基础上,对显着性检测算法进行了Python环境下的实现。然后,为了提升显着性检测系统的处理性能,本课题在ARM端算法实现的基础上分析了各个处理部分的原理与特点,进行了加速IP核的设计。通过对系统算法的的软硬件协同设计,对各部分进行并行化分析,选择了颜色空间转换部分和超像素顶点矩阵相乘部分进行了FPGA并行加速处理,并基于Vivado进行了硬件通路的设计,实现了ARM与FPGA间的数据交互。最后,本课题对显着性检测系统的测试环境进行了搭建与配置,并进行了性能测试。针对PR曲线、MAE指数、F-measure指数、处理速度等指标进行了系统方法与经典方法的对比实验。经验证,本检测系统实现了预期性能指标,满足设计要求。

二、nVIDIA GeForce 256（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、nVIDIA GeForce 256（论文提纲范文）

（1）依靠存算一体，AI芯片翻越“两面墙”（论文提纲范文）

翻越芯片“两面墙”

寻找回国创业的机会

软件生态：鸡生蛋，蛋生鸡

高端芯片设计人才差距缩小

（2）基于GPU的无人机影像拼接关键技术研究（论文提纲范文）

摘要

Abstract

第一章绪论

§1.1 研究背景和意义

§1.2 相关技术国内外研究现状

§1.2.1 图像去雾研究现状

§1.2.2 图像拼接研究现状

§1.2.3 GPU并行计算研究现状

§1.3 论文研究内容

§1.4 论文结构安排

第二章基于GPU的无人机影像拼接技术基础

§2.1 引言

§2.2 GPU并行计算与CUDA概述

§2.2.1 GPU并行计算

§2.2.2 CUDA简介

§2.3 图像去雾处理

§2.3.1 大气散射模型

§2.3.2 暗通道先验模型

§2.3.3 导向滤波原理

§2.4 图像匹配技术

§2.4.1 SIFT原理

§2.4.2 SURF原理

§2.4.3 ORB原理

§2.5 图像融合方法

§2.5.1 直接平均融合

§2.5.2 加权平均融合

§2.5.3 最佳缝合线融合

§2.6 本章小结

第三章改进暗通道的图像去雾算法研究

§3.1 引言

§3.2 算法理论研究

§3.2.1 不同区域的分割

§3.2.2 天空区域去雾

§3.2.3 非天空区域去雾

§3.2.4 加权导向滤波

§3.3 结果分析

§3.3.1 主观评价

§3.3.2 客观评价

§3.3.3 无人机图像处理结果

§3.4 本章小结

第四章改进SURF算法和改进最佳缝合线的算法研究

§4.1 引言

§4.2 基于FSURF结合GPU并行计算分析

§4.2.1 积分图像计算

§4.2.2 特征点提取

§4.2.3 特征点描述计算

§4.3 基于FSURF的特征点匹配算法研究

§4.3.1 双向快速近似最近邻算法

§4.3.2 PROSAC方法

§4.4 改进最佳缝合线算法研究

§4.5 结果分析

§4.5.1 主观评价

§4.5.2 客观评价

§4.6 本章小结

第五章总结与展望

§5.1 总结

§5.2 展望

参考文献

致谢

作者在攻读硕士期间的主要研究成果

（3）支持国产计算平台的深度学习加速技术研究（论文提纲范文）

摘要

abstract

注释表

缩略词

第一章绪论

1.1 论文背景及研究意义

1.2 深度学习加速技术发展和现状

1.2.1 国外深度学习加速技术现状

1.2.2 国内深度学习加速技术现状

1.3 研究内容及创新点

1.3.1 研究内容

1.3.2 创新点

1.4 本文的内容安排

第二章相关理论与技术

2.1 深度学习常用加速硬件介绍

2.2 卷积神经网络

2.3 ROCm平台简介

2.4 奇异值矩阵分解(SVD)

第三章国产计算平台的GPU加速技术

3.1 GPU软件支撑环境结构

3.1.1 异构计算可移植接口

3.1.2 异构计算运行时库

3.1.3 深度学习函数库

3.2 国产计算平台上GPU驱动移植

3.3 国产计算平台架构以及模块依赖问题的解决

3.3.1 架构兼容性问题

3.3.2 模块内与模块间依赖的问题

3.4 Caffe在AMD GPU上支持问题的解决

第四章国产FPGA卷积神经网络优化技术

4.1 卷积神经网络复杂度分析

4.1.1 空间复杂度分析

4.1.2 时间复杂度分析

4.2 卷积神经网络复杂度优化

4.2.1 空间复杂度优化方法——矩阵压缩

4.2.2 时间复杂度优化方法——数据量化

4.3 卷积神经网络国产FPGA调试流程

第五章实验验证与分析

5.1 国产计算平台的GPU加速技术测试验证

5.1.1 实验环境

5.1.2 深度学习模型训练测试

5.1.3 深度学习模型推理测试

5.2 深度学习在国产FPGA上的测试验证

5.2.1 实验环境

5.2.2 卷积神经网络在国产FPGA上部署实验

5.3 实验总结

第六章总结与展望

6.1 工作总结

6.2 仍存在的问题与未来研究方向

6.2.1 当前系统框架存在的问题

6.2.2 未来研究方向

参考文献

致谢

在学期间发表的学术论文及取得的研究成果

（4）基于GPU加速的Adaboost车辆检测技术研究（论文提纲范文）

摘要

abstract

第1章绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 GPU对图像计算加速研究现状

1.2.2 GPU对 Adaboost算法加速研究现状

1.3 本文主要研究内容及章节安排

第2章 GPU及其在图像处理中的应用

2.1 GPU基本架构及通用计算

2.1.1 GPU和 CPU计算架构的对比

2.1.2 GPU通用计算技术

2.2 CUDA编程与存储模型

2.3 常见的GPU加速优化办法

2.4 一般图像处理的GPU加速效果

2.5 本章小结

第3章 Adaboost车辆检测算法及其并行实现

3.1 Adaboost算法

3.1.1 Adaboost算法背景

3.1.2 Adaboost算法原理和流程

3.2 Haar-Like特征与积分图像

3.2.1 Haar-Like特征

3.2.2 积分图像

3.3 Adaboost车辆检测算法的并行实现

3.3.1 RGB颜色空间转换并行实现

3.3.2 积分图像计算并行实现

3.3.3 图像金字塔生成并行实现

3.3.4 并行目标检测

3.3.5 算法任务划分

3.4 实验结果及分析

3.5 本章小结

第4章 Adaboost车辆并行检测算法在实际场景中的应用

4.1 测试系统的构建

4.1.1 视频监控系统结构

4.1.2 监控摄像机的安装

4.2 道路监控视频车辆检测加速效果

4.3 加油站监控视频车辆检测加速效果

4.4 本章小结

结论

参考文献

致谢

（6）基于分布式存储的大规模场景并行光路追踪方法（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 课题背景及研究意义

1.2 国内外的研究和发展状况

1.2.1 光路追踪真实感绘制方法

1.2.2 基于众核架构的蒙特卡洛光路追踪并行加速方法

1.2.3 针对大规模场景的并行光路追踪绘制方法

1.3 本文主要工作

1.4 本文组织结构

第2章相关基础知识

2.1 光路追踪技术

2.2 神威·太湖之光高性能计算机架构

2.3 MPI分布式内存编程模型

第3章大规模场景分布式存储方法

3.1 大规模场景的分布式存储方法

3.2 大规模场景的数据划分方法

3.2.1 基于随机数的场景划分方法

3.2.2 基于文件大小的场景划分方法

3.2.3 基于莫顿码排序的场景划分方法

第4章基于场景分布式存储的并行光路追踪方法

4.1 并行光路追踪整体架构

4.2 基于场景分布式存储的光路追踪方法

4.3 通信优化

4.3.1 MPI非阻塞通信

4.3.2 双缓冲设计

4.4 渲染任务划分和调度

4.4.1 基于bucket的图像并行

4.4.2 动态任务调度

第5章实验结果与分析

5.1 渲染质量验证

5.2 场景划分方法对比与并行效率分析

5.2.1 几何体大小一致空间分布均匀场景实验结果

5.2.2 几何体大小一致空间分布不均匀场景实验结果

5.2.3 几何体大小不同空间分布均匀场景实验结果

5.2.4 场景之间的对比

5.3 场景规模扩展性测试

5.4 整体并行效率分析

第6章总结与展望

6.1 本文主要工作

6.2 未来工作展望

参考文献

致谢

攻读学位期间发表的学术论文目录

攻读学位期间参与的科研项目及获奖情况

学位论文评阅及答辩情况表

（7）探究GPU对神经网络的加速作用（论文提纲范文）

1 引言

2 GPU的发展现状与计算特性

3 神经网络的计算方法

3.1 人工神经网络的计算

3.2 卷积神经网络的计算

4 GPU对卷积神经网络的加速

5 总结

（8）基于CUDA并行粒子群的Pt-Pd合金纳米粒子结构优化研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 背景

1.2 国内外研究现状

1.3 研究计划与结构安排

第二章系统建模与CUDA并行计算

2.1 结构预测模型

2.1.1 势能函数介绍

2.1.2 QSC势能函数

2.2 GPU概述

2.2.1 GPU发展简介

2.2.2 GPU和CPU的区别

2.2.3 GPU的特点

2.3 CUDA概述

2.3.1 CODA的软件体系

2.3.2 CODA的编程模型

2.3.3 CUDA的存储层次

2.3.4 CUDA的应用领域

2.4 并行算法

2.4.1 并行算法的实现策略

2.4.2 并行算法的设计过程

2.5 本章小结

第三章基于CUDA的并行粒子群算法

3.1 基于CPU的改进粒子群算法

3.1.1 粒子群算法

3.1.2 改进粒子群算法

3.2 可行性分析

3.3 CUDA环境搭建

3.4 基于种群的粗粒度与原子的细粒度混合并行粒子群算法

3.4.1 CPSO算法并行化

3.4.2 算法主要步骤

3.5 关键参数设计

3.5.1 全局内存合并访问

3.5.2 种群与线程块的设计

3.5.3 最佳线程数设计

3.5.4 并行规约算法的使用

3.5.5 线程通信的设计

3.6 本章小结

第四章实验结果分析

4.1 运行时间与加速比

4.1.1 等规模、等迭代次数的加速比

4.1.2 等规模、等求解精度的加速比

4.1.3 等规模、等终止条件的加速比

4.2 算法的收敛性与稳定性分析

4.2.1 算法的收敛性分析

4.2.2 算法的稳定性分析

4.3 本章小结

第五章总结与展望

5.1 工作总结

5.2 未来展望

参考文献

攻读硕士学位期间发表的论文

致谢

（9）基于GPU的机载预警雷达信号处理方法实现（论文提纲范文）

摘要

ABSTRACT

符号对照表

缩略语对照表

第一章绪论

1.1 研究背景及意义

1.1.1 机载预警雷达空时自适应处理研究背景及意义

1.1.2 基于GPU的机载预警雷达信号处理研究背景及意义

1.2 国内外研究现状分析

1.2.1 机载预警雷达空时自适应处理国内外研究现状

1.2.2 基于GPU的机载雷达信号处理国内外研究现状

1.3 本文的主要工作及工作安排

第二章非均匀环境下的空时自适应处理

2.1 引言

2.2 空时自适应处理基本原理

2.2.1 全维STAP基本原理

2.2.2 降维STAP基本原理

2.3 基于环境动态感知的知识辅助空时自适应处理

2.3.1 杂波环境先验信息获取

2.3.2 杂波协方差矩阵估计和空时自适应处理

2.3.3 仿真实验和结果分析

2.4 本章小结

第三章 GPU通用计算框架介绍

3.1 GPU简介

3.2 CUDA模型介绍

3.2.1 CUDA编程模型介绍

3.2.2 CUDA执行模型介绍

3.2.3 CUDA存储器模型介绍

3.3 GPU和MATLAB混合编程方法

3.3.1 CUDA C与MATLAB的差异

3.3.2 GPU与MATLAB混合编程实现

3.4 本章小结

第四章基于GPU的机载预警雷达信号处理方法实现

4.1 基于GPU的机载预警雷达回波仿真方法实现

4.1.1 机载预警雷达回波仿真原理

4.1.2 机载预警雷达回波仿真并行方法

4.1.3 机载雷达回波仿真并行结果及分析

4.2 基于GPU的匹配滤波方法实现

4.2.1 匹配滤波算法原理

4.2.2 匹配滤波算法并行方法

4.2.3 匹配滤波算法并行结果及分析

4.3 基于GPU的机载雷达杂波抑制方法实现

4.3.1 3DT算法原理

4.3.2 3DT算法并行实现

4.3.3 3DT算法并行结果及分析

4.3.4 KA-STAP算法并行实现

4.3.5 KA-STAP算法并行结果和分析

4.4 基于GPU的恒虚警率检测并行化方法

4.4.1 恒虚警率检测基本原理

4.4.2 单元平均恒虚警率检测算法的并行方法

4.4.3 单元平均恒虚警率算法并行结果及分析

4.5 本章小结

第五章总结与展望

5.1 全文总结

5.2 未来展望

参考文献

致谢

作者简介

（10）基于PYNQ的图像视觉显着性检测系统设计（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 课题背景及研究意义

1.2 国内外研究现状分析

1.2.1 嵌入式视觉处理发展现状

1.2.2 视觉显着性检测研究现状

1.2.3 研究现状总结与分析

1.3 主要研究内容与各章节安排

第2章视觉显着性检测系统方案设计

2.1 系统设计要求

2.2 基于Zynq的系统总体方案设计

2.2.1 系统需求分析

2.2.2 软硬件协同设计

2.2.3 系统总体方案设计

2.3 硬件平台介绍

2.3.1 开发板基本特性

2.3.2 外设和接口

2.3.3 OVERLAY介绍

2.3.4 基本工程重构

2.4 本章小结

第3章显着性检测算法研究及实现

3.1 多类显着性检测算法特性分析

3.2 显着性检测系统算法研究

3.2.1 基于边界连通性的显着性检测研究

3.2.2 基于区域对比度的显着性检测研究

3.3 ARM端显着性检测算法实现

3.3.1 基于边界连通性与区域对比度的算子实现

3.3.2 利用优化条件的算法融合实现

3.4 本章小结

第4章系统加速器设计与HDMI接口逻辑设计

4.1 基于Vivado HLS的图像处理模块加速器设计

4.1.1 利用HLS的图像处理设计流程

4.1.2 系统AXI数据通信

4.1.3 颜色空间转换IP核设计实现

4.1.4 矩阵点乘IP核设计实现

4.1.5 硬件通路设计

4.1.6 API函数与底层逻辑交互接口设计

4.2 HDMI输出接口通路设计

4.2.1 DVI与RGB数据格式转换模块

4.2.2 Video IN to AXI4-Stream与AXI4-Stream to Video OUT模块概述

4.2.3 Video Timing Controller模块概述

4.2.4 HDMI API接口设计

4.3 本章小结

第5章显着性检测系统综合测试

5.1 测试环境搭建

5.1.1 环境配置

5.1.2 Jupyter Notebook开发环境配置

5.2 系统算法功能与性能测试

5.2.1 系统功能测试

5.2.2 系统性能测试

5.3 本章小结

结论

参考文献

致谢

四、nVIDIA GeForce 256（论文参考文献）

[1]依靠存算一体，AI芯片翻越“两面墙”[J]. 张静. 服务外包, 2021(09)
[2]基于GPU的无人机影像拼接关键技术研究[D]. 陶堃. 桂林电子科技大学, 2021
[3]支持国产计算平台的深度学习加速技术研究[D]. 丁立德. 中国电子科技集团公司电子科学研究院, 2020(03)
[4]基于GPU加速的Adaboost车辆检测技术研究[D]. 魏依萌. 哈尔滨工程大学, 2018(08)
[5]GTC 2019,英伟达和它叫不醒的To B梦[J]. 脑极体. 营销界, 2019(16)
[6]基于分布式存储的大规模场景并行光路追踪方法[D]. 李壮. 山东大学, 2019(09)
[7]探究GPU对神经网络的加速作用[J]. 朱永贵,张佳佳,华敏杰. 中国传媒大学学报(自然科学版), 2018(05)
[8]基于CUDA并行粒子群的Pt-Pd合金纳米粒子结构优化研究[D]. 李泽鹏. 厦门大学, 2017(07)
[9]基于GPU的机载预警雷达信号处理方法实现[D]. 郑诗雨. 西安电子科技大学, 2018(02)
[10]基于PYNQ的图像视觉显着性检测系统设计[D]. 董亦博. 哈尔滨工业大学, 2018(01)

标签：机器学习论文; 深度学习算法论文; 自适应算法论文; 图像深度论文; 图像融合论文;

英伟达 GeForce 256

一、nVIDIA GeForce 256（论文文献综述）

二、nVIDIA GeForce 256（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、nVIDIA GeForce 256（论文提纲范文）

（1）依靠存算一体，AI芯片翻越“两面墙”（论文提纲范文）

（2）基于GPU的无人机影像拼接关键技术研究（论文提纲范文）

（3）支持国产计算平台的深度学习加速技术研究（论文提纲范文）

（4）基于GPU加速的Adaboost车辆检测技术研究（论文提纲范文）

（6）基于分布式存储的大规模场景并行光路追踪方法（论文提纲范文）

（7）探究GPU对神经网络的加速作用（论文提纲范文）

（8）基于CUDA并行粒子群的Pt-Pd合金纳米粒子结构优化研究（论文提纲范文）

（9）基于GPU的机载预警雷达信号处理方法实现（论文提纲范文）

（10）基于PYNQ的图像视觉显着性检测系统设计（论文提纲范文）

四、nVIDIA GeForce 256（论文参考文献）

猜你喜欢