AINLP公众号-AINLP最新文章-次幂数据

MoE模型的前世今生

2024年3、4月这段时间,很多MoE模型扎堆发布,包括Qwen1.5-MoE、DBRX、Jamba和Mis

04月26日

Sam Altman斯坦福分享会

X博主@Sophia在斯坦福昨天分享了Sam Altman 4月24号在斯坦福闭门分享会的重点内容。Sam

04月26日

Qwen1.5介绍及本地部署

Paper: https://arxiv.org/abs/2309.16609GitHub: https:/

04月26日

LLM能否依据角色的过去预测未来?一篇有趣的研究

作者:wkk深度学习自然语言处理 原创引言你是否想过,如果有一天,当你面临人生重大抉择时,有一个AI助手能够

04月26日

COLING2024|基于提示融合框架的归纳逻辑查询回答

论文题目:Prompt-fused framework for Inductive Logical Quer

04月26日

大模型“超级外挂”RAG详解:一文剖析 LLM RAG 关键环节

LLM RAG(Retrieval-Augmented Generation)是一种自然语言处理领域的模型架构

04月25日

Llama3 实战笔记

作者:lucas大叔原文地址:https://zhuanlan.zhihu.com/p/693407124当

04月25日

LlamaFactory进行llama3微调,有Colab教程可上手体验学习

最近,大模型领域最受关注的事件就是meta发布了llama3,前段时间我们介绍的LlamaFactory也第

04月25日

RAG结构思考:搜索系统范式和大模型作用压缩

RAG的文章写的也不少了(心法利器[111] | 近期RAG技术总结和串讲(4w字RAG文章纪念)),除了原

04月25日

TIVE: 数据高效的视觉指令微调

© 作者|刘子康机构|中国人民大学研究方向|多模态大语言模型视觉指令微调是构建多模态大语言模型(MLLM)的

04月25日

超越GPT-4!可以在手机上跑的大模型火了

近日,斯坦福大学研究人员推出的可以在手机端跑的大模型 Octopus v2 火了,受到了开发者社区的极大关注

04月24日

小身材大能量的Phi系列模型

今天微软发布了 Phi3 模型,3.8B 的小体量做到了 Mixtral-8x7B 一样的效果,在社区引起了

04月24日

腾讯混元招聘AIGC算法研究员(文生3D)(深圳/北京/上海)(社招/实习)

混元AIGC算法研究员(文生3D)(深圳/北京/上海)(社招/实习)岗位职责1.通过对AIGC大模型(3D生成

04月24日

逐模块解析transformer结构

transformer是一种编解码(encoder-decoer)结构,用于自然语言处理、计算机视觉等领域,

04月24日

欢迎 Llama 3:Meta 的新一代开源大语言模型

介绍Meta 公司的 Llama 3 是开放获取的 Llama 系列的最新版本,现已在 Hugging Fa

04月24日

时序Transformer/时序大模型:一文全面了解时序预测新利器

时空预测引领了新的热点,时间序列预测领域的首个大模型 TimeGPT 引起业界热议,Transformer+时

04月23日

生成式模型的奇葩应用:生成式检索

最近在学习一个奇特的技术,叫做生成式检索。生成式检索是一种利用生成式语言模型来检索的全新信息检索方法。不同于

04月23日

大模型综述出书了

在2023年3月,我们发表了大语言模型综述文章《A Survey of Large Language Mod

04月23日

好样本,事半功倍:使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本

关注我公众号的朋友们,抱歉了,转眼本号已经断更了9个月了,这大半年一直很忙,实习、写博士论文,更重要的是我角

04月23日