大模型预训练认知分享

如何从零开始训练大模型（minicpm分享&讨论）

05月17日

Blurr AI 招聘RAG 研发工程师和AI Agent 开发工程师

招聘企业：Blurr AI（北京三垣瀚智科技有限公司），清华计算机系大咖创立的人工智能新锐科技企业，基于 AI

05月17日

如何提升大模型RAG系统的效果？RAG推理增强(二)

“如何提升大模型RAG系统的推理能力，尤其是RAG中的Generation部分，即假定我们已经检索到了Top

05月17日

基于多模态信息抽取的菜品知识图谱构建

菜品作为到店餐饮各相关业务的基石，提供了更细粒度的视角理解餐饮供给，为到餐精细化运营提供了抓手。美团到店研发

05月17日

新加坡提示工程大赛冠军最强Prompt工程技巧分享，仅用大模型也能做数据分析

新加坡政府科技局 (GovTech) 举办的首届 GPT-4 提示工程大赛冠军Sheila Teo分享了她的

05月17日

RAG还是微调？大模型微调技术全面盘点

全面盘点算法工程师需要掌握的大模型技术

05月16日

如何提升大模型的Agent推理规划等能力？

“ 从去年GPT爆火之后，越来越多的工业界和学术界都关注Agent的应用。本文尝试捋一下两方面工作：1、对于

05月16日

开源闭源争论不休，浅谈大模型开源和闭源

写在前面前一阵子的开源和闭源之争炒的比较火热，之前一直想写点什么，由于太懒就没写，但是最近开源模型真的太火爆

05月16日

大模型测试集作弊？ICLR论文将leak一网打尽！

如果你拿一些题库的输入去推大模型的base模型话，会发现他们经常一股脑就把训练过的题库吐露出来了，比如早前大

05月16日

IJCAI2024｜基于指令的大模型知识编辑

论文题目：InstructEdit: Instruction-Based Knowledge Editing

05月16日

Transformer登上nature，被誉为大模型基石的它到底凭什么这么火？

Transformer模型最初由Google的研究人员在2017年提出，它是一种基于自注意力机制的深度学习模型

05月15日

手撕Flash Attention！原理解析及代码实现

05月15日

DPO作者新作｜From r to Q*

Your Language Model is Secretly a Q-Function

05月15日

Introducing GPT-4o

2024.05.14 昨晚在Open AI Spring update发布了最新的GPT-4o，本文简单介绍

05月15日

RAG开源项目Qanything源码阅读2-离线文件处理

书接上文，最近选了一个开源的RAG项目进行进一步学习：https://github.com/netease-

05月15日

太强了！深度学习融合魔改

特征提取是计算机视觉领域经久不衰的研究热点，

05月14日

LLM落地淘宝电商搜索场景，显著提升长尾query改写效果

LLM是目前学术界研究的热点，同时工业界也在快速探索LLM在业务中的落地。本篇文章给大家介绍来自WWW24的

05月14日

StarCoder2-Instruct: 完全透明和可自我对齐的代码生成

指令微调是一种技术，它能让大语言模型 (LLMs) 更好地理解和遵循人类的指令。但是，在编程任务中，大多数

05月14日

零一万物开源Yi-1.5系列大模型

写在前面今天早上看到零一万物发布了新的模型Yi-1.5系列，涉及6B、9B和34B三种规模，前有Qwen1.

05月14日

COLING24 ｜无需标注即可增强模型 COT 能力

论文名称：Improving Language Model Reasoning with Self-moti

05月14日