理解深度学习:第四章 深度神经网络
前面一章我们讨论了只有一个隐藏层的浅层神经网络。本章,我们将转向深度神经网络,这种网络拥有多个隐藏层。无论是浅层还是深层网络,当使用 ReLU (Rectified Linear Unit) 激活函数时,它们都能实现从输入到输出的分段直线式的变换。 浅层神经网络的能力随着隐藏单元数量的增加而提升。实际上,如果隐藏单元足够多,这些网络甚至能够模拟高维…
【转】局部余弦相似度大,全局余弦相似度一定也大吗?
本文转自苏神的博客 在分析模型的参数时,有些情况下我们会将模型的所有参数当成一个整体的向量,有些情况下我们则会将不同的参数拆开来看。比如,一个7B大小的LLAMA模型所拥有的70亿参数量,有时候我们会将它当成“一个70亿维的向量”,有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”,最极端的情况下,我们也会将它看成是“七十亿个1维向量”…
理解深度学习:第三章 浅层神经网络
第二章我们学习了使用一维线性回归的监督学习方法,但这种模型只能表示出输入与输出之间简单的线性关系。在这一章里,我们将接触到浅层神经网络。这种网络可以表达分段线性函数,并且能力强大到足以近似任何复杂度的多维输入和输出之间的关系。 3.1 神经网络示例 浅层神经网络是带有参数 $\phi$ 的函数 $y = f[x, \phi]$,它将多变量输入 $x…
理解深度学习: 第二章 监督学习
监督学习模型就是将一个或多个输入转化为一个或多个输出的方式。比如,我们可以将某部二手丰田普锐斯的车龄和行驶里程作为输入,预估的车辆价格则是输出。 这个模型其实只是个数学公式;当我们把输入放入这个公式进行计算,我们得到的结果就是所谓的“推理”。这个公式还包含一些参数。改变参数值会改变计算的结果;这个公式其实描述了输入和输出之间所有可能关系的“家族”,…
理解深度学习: 第一章 介绍
原书地址:https://udlbook.github.io/udlbook/ 人工智能(AI)旨在打造模仿智能行为的系统。它覆盖了众多方法,涵盖了基于逻辑、搜索和概率推理的技术。机器学习是 AI 的一个分支,它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展,现在几乎(虽不完全准确)与 AI 同义。 深度神经网络是一类机器学习…
新年快乐呀
2023 的最后一个周末,也是今年的最后一天,之前说自己要做到周更,虽然本周也整了篇新文章,也是2024 年给自己埋的新坑,但感觉作为一年的最后一天,应当写一点总结性的东西比较合理。 今年都干了些啥 今年开始算是正式重启公众号的更新了,上一次还是去年5月份,而且之前Java和AI的文章五五开,今年一篇Java相关的文章都没写,全是AI了,感觉粉丝也…
OpenAI官方给出的Prompt工程建议
OpenAI在自己的官方网站上之前发布了关于如何进行提示工程的指导文档,这份文档可以帮助我们更好的对AI发起提问,从而得到更有效的答案。以下是针对原文的翻译,主要使用ChatGPT4进行机翻,人工也会做一些微调,主要排版做了一点调整,此外有一些翻译不准确的地方请多见谅,但也希望大家看看原文,一起学习。本文主要提供的六个策略我这里直接列出来,方便大家…
复习一下时间检验奖:Word2Vec
不久前,NeurIPS 官方公布了 2023 年度的获奖论文,其中时间检验奖颁发给了10年前的论文「Distributed Representations of Words and Phrases and their Compositionality」。这篇论文可以看做是Word2Vec的第二篇论文。第一篇是「Efficient Estimatio…
分享两个阅读论文的方法
最近因为有事没事就看看论文,虽然现在有GPT的帮助能提升不少效率,但其实对于一个科研小白而言还是非常吃力的。今天分享两个阅读论文的方式,一个是2007年就发表过的S. Keshav的How to Read a Paper,另一个是沈向洋博士提出的论文十问。相信已经有很多做科研的同学们都已经对看论文很熟练了,但对于刚开始入门的同学而言,这两个论文阅读…