Imagine yourself: Tuning-Free Personalized Image Generation 想象你自己:无调优个性化图像生成 扩散模型在多种图像生成任务中表现出色。本研究中,我们推出了“想象你自己”,一种无需调优的个性化图像生成模型。与依赖调优的传统方法不同,“想象你自己”允许所有用户共享同一框架,无需个体调整。此前,模…
最近要开始刷CMU的 10-414/714: Deep Learning Systems 这门课了,之前其实就看了个开头,因为自己就是希望未来可以多研究研究关于System方面的内容,因此这门课可以说是必须刷的了。目前只看了前面5节的内容,已经足以做第一次的作业了。因此开了个仓库用来管理作业了,官方的是每次作业都单独一个库,自己学的话还是放一块比较…
InstantDrag: Improving Interactivity in Drag-based Image Editing InstantDrag: 提升基于拖拽的图像编辑中的交互性 基于拖拽的图像编辑因其交互性和精确性而最近受到青睐。然而,尽管文本到图像模型能够在几秒钟内生成样本,但拖拽编辑仍然落后,这是由于在保持图像内容的同时准确反映用户…
How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data 你的代码大语言模型表现如何?利用高质量数据赋能代码指令微调 最近,研究如何构建更好的代码指令微调数据集的兴趣逐渐增加。然而,我们观察到使用这些数据集训练的代码模型在Huma…
SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding SciLitLLM: 如何适应大语言模型以理解科学文献 科学文献理解对于提取目标信息和获得洞察力至关重要,从而显著推进科学发现。尽管大语言模型 (LLMs) 取得了显著的成功,但它们在理解科学文献方面面临挑战,主…
Building and better understanding vision-language models: insights and future directions 构建与深化理解视觉-语言模型:洞察与未来方向 视觉-语言模型 (VLMs) 领域,以图像和文本为输入并输出文本,正处于快速发展阶段,但在数据、架构和训练方法等关键开发环节上…