月度归档: 2023年9月

7 篇文章

Effective Long-Context Scaling of Foundation Models论文翻译(机翻)
Abstract 我们呈现了一套能处理高达 32,768 个token的长上下文语言模型(LLMs)。这些模型是基于 LLAMA 2 通过持续预训练而得,利用了更长的训练序列,并在一个长文本被放大采样的数据集上进行训练。我们对这套模型进行了全面评估,包括语言建模、合成上下文探测任务和多种研究基准测试。在研究基准测试中,我们的模型在大部分常规任务上都…
“羊驼”又双叒叕升级了!LLaMA 2 Long 正式来袭!
LLaMA 2 刚发布没多久,Meta又推出了它的升级版,LLaMA 2 Long正式登场!性能上全面超越LLaMA 2。和其他竞争对手相比也丝毫不弱,甚至能超越ChatGPT(3.5)。 目前虽然市面上已经有很多大语言模型(LLMs),但我们都知道它们都存在一个问题,就是处理长上下文的时候容易出现健忘和胡说八道的情况。目前我个人若需要处理长文本的…
分享两篇大模型幻觉问题相关的论文
最近看了两篇关于大模型幻觉问题的论文,一篇叫做 A Survey of Hallucination in “Large” Foundation Models,是关于大型基础模型(Large Foundation Models, LFMs)的幻觉问题的一个综述。另外一篇是来自MetaAI的 Chain-of-Verification Reduces …
人脸识别和神经风格迁移介绍
终于来到Andrew Ng教授深度学习专项课程CNN课程的的最后一节课的笔记博客了,这也是这门课程专栏的最后一篇博文了,本篇主要内容主要是CNN在人脸识别和神经风格迁移中的应用。那我们开始吧! 人脸识别 人脸识别简介 什么是人脸识别?我想大家应该都使用过人脸识别的系统,比如一些办公楼或者小区的人脸识别系统,系统可以识别到一个活生生的人脸(相比于照片…
浅谈CNN中的检测算法
图像处理算法发展迅速,卷积神经网络扮演越来越重要的角色。本文基于Andrew Ng 教授的深度学习专项课程第四门课程的第三周内容来详细介绍卷积神经网络(CNN)中的主要检测算法,包括对象识别定位、如何提升检测精度,YOLO算法,语义分割等概念。 对象的识别与定位 计算机视觉的核心挑战之一是如何使机器能够“看到”和“理解”图像中的内容。不同于人类直观…
深度卷积神经网络案例研究
在深度学习快速发展的时代,各种创新型的神经网络架构层出不穷。要想跟着时代的发展,对于这些案例的研究是很有必要的。本篇博客将基于Andrew Ng教授的深度学习专项课程第四门课程的第二周内容来针对卷积神经网络的一些案例进行介绍。 案例研究的意义 首先思考一个问题,我们为什么需要研究这些案例呢? 首先,这些案例承载了前人在网络设计中积累的知识和经验。通…
卷积神经网络入门
卷积神经网络(Convolutional Neural Network,简称CNN)是一类用于图像处理的深度神经网络。CNN借鉴生物视觉系统的结构,使用卷积运算提取图像的空间特征,再结合全连接层进行分类或预测。由于卷积运算的引入,CNN在图像处理方面表现卓越,被广泛应用于图像分类、目标检测、语义分割等任务中。本篇博客将基于Andrew Ng教授的深度学习专项课程第四门课程的第一周内容来针对卷积神经网络的基础知识进行简单的介绍。