学习transformer模型-矩阵乘法;与点积dot product的关系;计算attention

news/2024/5/21 3:57:30

矩阵乘法:

1、当矩阵A的列数(column)等于矩阵B的行数(row)时,A与B可以相乘。

Ankie的评论:一个人是站着的,一个人是躺着的,站着的高度=躺着的长度。

在计算attention的时候,因为QK是一样的矩阵,所以必须把K转置(躺下),才能相乘。

2、矩阵C的行数等于矩阵A的行数,C的列数等于B的列数。

3、乘积C的第m行第n列的元素等于矩阵A的第m行的元素与矩阵B的第n列对应元素乘积之和。

Ankie的评论:C里面每个值,都是乘积之和(点积)。

矩阵乘法与点积dot product的关系:

因为点积是2个向量做运算:

两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn]的点积定义为:

a·b=a1b1+a2b2+……+anbn。

Ankie的评论:

跟上面矩阵乘法一对比,就看得出:

矩阵C的第一个元素,其实就是A的第一行和B的第一列做点积。

假如矩阵A只有一行,而B只有一列,矩阵乘法 == 向量点积。

假如矩阵A不止一行,而B也不止一行,矩阵乘法 ==  多个 向量点积。

这样就可以理解标题叫做dot-product attention,而实际上用的是矩阵乘法。

回到点积的几何作用:

Ankie的评论:因为点积可以计算相似值,或者距离,attention就拿来计算attention的相似值,或者距离。


http://wed.xjx100/news/1263601.html

相关文章

京东云0基础搭建帕鲁服务器_4核16G和8核32G幻兽帕鲁专用服务器

使用京东云服务器搭建幻兽帕鲁Palworld游戏联机服务器教程,非常简单,京东云推出幻兽帕鲁镜像系统,镜像直接选择幻兽帕鲁镜像即可一键自动部署,不需要手动操作,真正的新手0基础部署幻兽帕鲁,阿腾云atengyun.…

springMVC实现细节

DispatcherServlet、拦截器、处理器详解(通俗易懂)_处理器和拦截器的区别-CSDN博客

uniApp使用XR-Frame创建3D场景(8)粒子系统

上篇文章讲述了如何将XR-Frame作为子组件集成到uniApp中使用 本片我们详细讲解一下xr-frame的粒子系统 先看源码 <xr-scene render-system"alpha:true" bind:ready"handleReady"> <xr-node visible"{{sec8}}"><xr-asset-load t…

【React】onClick点击事件传参的4种方式

记录React onClick 点击事件传参的 4 种方式 方式一&#xff1a;使用内联箭头函数 import React, { MouseEvent } from "react";function App() {const handleClick (event: MouseEvent<HTMLButtonElement>, name: string) > {console.log(event)console.…

mysql80-DBA数据库学习4-多实例

什么是MySQL多实例 MySQL的多实例就是在一台机器上开启多个不同的服务端口&#xff0c;运行多个MySQL服务进程&#xff0c;使用不同的socket来监听这多个不同的端口以此提供服务&#xff0c;这一点和Oracle的多实例类似。这些MySQL的实例共用相同的MySQL但是使用的参数文件是不…

iOS library not found for -lMBProgressHUD

0x00 前因 一开始是使用 CocoaPods 管理 MBProgressHUD&#xff0c;后来直接导入 MBProgressHUD 源码&#xff0c;就出现了这个错误&#xff1a;library not found for -lMBProgressHUD 0x01 后果 在 Xcode 工程目录中找到文件夹&#xff1a;Frameworks 看看里面是否有个红色…

C语言刷题(19)

1、矩阵相等判断&#xff08;牛客网&#xff09; 描述 KiKi得到了两个n行m列的矩阵&#xff0c;他想知道两个矩阵是否相等&#xff0c;请你回答他。(当两个矩阵对应数组元素都相等时两个矩阵相等)。 输入描述&#xff1a; 第一行包含两个整数n和m&#xff0c;表示两个矩阵包含n…

ocr之opencv配合paddleocr提高识别率

背景1&#xff1a;在这篇文章编写之前使用到的工具并不是opencv&#xff0c;而是java原有的工具BufferedImage。但因为在使用过程中会频繁切图&#xff0c;放大&#xff0c;模糊&#xff0c;所以导致的jvm内存使用量巨大&#xff0c;分秒中都在以百兆的速度累加内存空间。这种情…