MoE模型的前世今生

2024年3、4月这段时间，很多MoE模型扎堆发布，包括Qwen1.5-MoE、DBRX、Jamba和Mis

04月26日

Sam Altman斯坦福分享会

X博主@Sophia在斯坦福昨天分享了Sam Altman 4月24号在斯坦福闭门分享会的重点内容。Sam

04月26日

Qwen1.5介绍及本地部署

Paper: https://arxiv.org/abs/2309.16609GitHub: https:/

04月26日

LLM能否依据角色的过去预测未来？一篇有趣的研究

作者：wkk深度学习自然语言处理原创引言你是否想过，如果有一天，当你面临人生重大抉择时，有一个AI助手能够

04月26日

COLING2024｜基于提示融合框架的归纳逻辑查询回答

论文题目：Prompt-fused framework for Inductive Logical Quer

04月26日

大模型“超级外挂”RAG详解：一文剖析 LLM RAG 关键环节

LLM RAG（Retrieval-Augmented Generation）是一种自然语言处理领域的模型架构

04月25日

Llama3 实战笔记

作者：lucas大叔原文地址：https://zhuanlan.zhihu.com/p/693407124当

04月25日

LlamaFactory进行llama3微调，有Colab教程可上手体验学习

最近，大模型领域最受关注的事件就是meta发布了llama3，前段时间我们介绍的LlamaFactory也第

04月25日

RAG结构思考：搜索系统范式和大模型作用压缩

RAG的文章写的也不少了（心法利器[111] | 近期RAG技术总结和串讲（4w字RAG文章纪念）），除了原

04月25日

TIVE: 数据高效的视觉指令微调

04月25日

超越GPT-4！可以在手机上跑的大模型火了

近日，斯坦福大学研究人员推出的可以在手机端跑的大模型 Octopus v2 火了，受到了开发者社区的极大关注

04月24日

小身材大能量的Phi系列模型

今天微软发布了 Phi3 模型，3.8B 的小体量做到了 Mixtral-8x7B 一样的效果，在社区引起了

04月24日

腾讯混元招聘AIGC算法研究员（文生3D）（深圳/北京/上海）(社招/实习）

混元AIGC算法研究员（文生3D）（深圳/北京/上海）（社招/实习)岗位职责1.通过对AIGC大模型（3D生成

04月24日

逐模块解析transformer结构

transformer是一种编解码（encoder-decoer）结构，用于自然语言处理、计算机视觉等领域，

04月24日

欢迎 Llama 3：Meta 的新一代开源大语言模型

介绍Meta 公司的 Llama 3 是开放获取的 Llama 系列的最新版本，现已在 Hugging Fa

04月24日

时序Transformer/时序大模型：一文全面了解时序预测新利器

时空预测引领了新的热点，时间序列预测领域的首个大模型 TimeGPT 引起业界热议，Transformer+时

04月23日

生成式模型的奇葩应用：生成式检索

最近在学习一个奇特的技术，叫做生成式检索。生成式检索是一种利用生成式语言模型来检索的全新信息检索方法。不同于

04月23日

大模型综述出书了

在2023年3月，我们发表了大语言模型综述文章《A Survey of Large Language Mod

04月23日

TikTok商业化算法-大模型基础算法/多模态方向（上海/北京/新加坡/温哥华/杭州/深圳）

04月23日

好样本，事半功倍：使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本

关注我公众号的朋友们，抱歉了，转眼本号已经断更了9个月了，这大半年一直很忙，实习、写博士论文，更重要的是我角

04月23日