文良_颜丑

获赞数

关注数

粉丝数

IP 属地江苏

2022-01-21 加入

浏览 4.6k

主页回答提问文章67

╭╮╱╭┳━━━┳╮╱╭╮
┃┃╱┃┃╭━╮┃┃╱┃┃
┃╰━╯┃┃┃┃┃╰━╯┃
╰━━╮┃┃┃┃┣━━╮┃
╱╱╱┃┃╰━╯┃╱╱┃┃

个人简介什么都没有

1 声望

暂无数据

黄金勋章

暂未获得该勋章

如何获得

白银勋章

暂未获得该勋章

如何获得

青铜勋章

暂未获得该勋章

如何获得

个人动态

发布了文章2 月 11 日
MindSpore Models服务化使用
 文良_颜丑
MindIE LLM不仅支持ATB Models，同时支持MindSpore作为框架后端，MindSpore Models覆盖MindFormers社区下的开源模型。
发布了文章2 月 11 日
MindSpore 自动并行实战：如何零代码修改实现单机到分布式训练的升级
 文良_颜丑
当模型参数或数据量过大时，分布式训练成为必然选择。传统方法需要手动切分模型、管理通信，过程复杂且易错。MindSpore 的自动并行特性能够自动寻找最优的并行策略，极大降低了分布式训练的门槛。
发布了文章2 月 11 日
MindSpore 动态图模式深度体验：像写NumPy一样调试神经网络
 文良_颜丑
在深度学习开发中，高效的调试与灵活的模型验证至关重要。MindSpore 提供了动态图模式（PYNATIVE_MODE），允许开发者以类似 NumPy/PyTorch 的命令式执行方式，逐行运行和调试代码，极大降低了复杂模型的前期开发门槛。
发布了文章2 月 4 日
MindSpore 大模型稀疏化 + 离线推理
 文良_颜丑
在大模型离线推理的工业级部署场景中，密集模型算力需求爆炸（70B 模型单卡离线推理吞吐量不足 1 token/s）、稀疏化精度损失不可控（非结构化稀疏精度暴跌 10% 以上）、稀疏算子硬件适配性差（稀疏计算访存瓶颈导致加速比低于 1.5 倍）是三大核心痛点。本次分享基于 ...
发布了文章2 月 4 日
MindSpore 大模型低比特量化部署进阶：2bit 极致压缩 + 精度补偿
 文良_颜丑
在端侧设备（如手机、嵌入式终端）部署千亿参数大模型时，“高压缩比” 与 “高精度保持” 的矛盾、低比特量化推理效率瓶颈是核心痛点 —— 传统 4bit 量化虽能将模型体积压缩 8 倍，但精度损失超 5%；2bit 量化压缩比达 16 倍，却会导致精度暴跌 15% 以上，且低比特算子在...
发布了文章2 月 4 日
MindSpore 大模型流式推理进阶：KV 缓存优化 + 增量解码 + 动态停止
 文良_颜丑
在对话生成、文本续写等流式输出场景中，大模型推理面临首 token 延迟高（千亿参数模型首 token 生成超 500ms）、KV 缓存碎片化（显存利用率不足 40%）、无效生成冗余计算（生成长度不可控导致算力浪费 30%）三大核心痛点。本次分享基于 MindSpore 的增量编译与张量...
发布了文章2 月 4 日
解锁 MindSpore 的高阶能力：自动并行与动静统一实战
 文良_颜丑
在深度学习模型日益庞大的今天，单机训练已难以满足效率需求。如何高效利用多设备（如多 GPU 或昇腾 NPU）进行分布式训练，成为工业界的核心挑战。
发布了文章2 月 2 日
MindSpore 大模型可解释性与鲁棒性协同优化：梯度归因可视化 + 对抗训练
 文良_颜丑
在金融风控、医疗诊断等强监管场景下，大模型的 “决策黑盒” 问题与对抗样本脆弱性是落地核心障碍 —— 前者无法满足监管的 “可解释性” 要求，后者会导致模型在恶意扰动下精度暴跌 50% 以上。本次分享基于 MindSpore 的梯度计算与对抗训练高阶特性，构建 “梯度归因可视...
发布了文章1 月 30 日
MindSpore从入门到精通：梯度截断、Stop Gradient 与辅助数据梯度处理最佳实践
 文良_颜丑
默认情况下，如果前向函数只返回 loss 一个值，mindspore.grad 只会计算「loss 对指定参数的梯度」，这也是我们训练模型的核心诉求。
发布了文章1 月 30 日
MindSpore 大模型高效微调进阶：LoRA/QLoRA 分层适配 + 增量预训练的低显存实践
 文良_颜丑
本次分享基于 MindSpore 的参数高效微调（PEFT）能力，构建 “分层 LoRA/QLoRA 微调 + EWC 遗忘抑制 + 增量预训练协同优化” 的工业级方案，实现单卡（A10 24G）完成 7B 模型高效微调，显存占用降低 75%，灾难性遗忘率降至 5% 以下，行业数据集微调后精度提升 8.3%，附...
发布了文章1 月 30 日
MindSpore 长文本开发全景入门
 文良_颜丑
2026 年，大模型进入“长上下文”时代：32 k、128 k 乃至 1 M token 的模型陆续开源。华为全场景 AI 框架 MindSpore 在 2.3 LTS 版本后，对长文本场景做了三点关键升级：
发布了文章1 月 30 日
MindSpore 进阶：在 Ascend NPU 上构建高效的自定义训练步 (TrainOneStep)
文良_颜丑
在深度学习的实际工程落地中，这时候往往发现官方封装好的 Model.train接口虽然方便，但在处理一些复杂的算法逻辑（如 GAN、强化学习或这就需要我们在 Ascend NPU 上进行自定义训练循环的构建。
发布了文章1 月 30 日
基于 MindSpore 的高效分布式训练：自动并行技术深度解析
 文良_颜丑
本文将深入技术细节，探讨如何在 Ascend 910 环境下，利用 MindSpore 实现从“数据并行”到“全自动混合并行”的无缝切换，并提供可运行的代码模板。
发布了文章1 月 30 日
昇思MindSpore实战经验：从模型训练到边缘部署全流程解析
 文良_颜丑
作为一名长期从事AI开发的工程师，我最近全面体验了华为昇腾AI处理器与MindSpore框架的全栈开发流程。经过多个项目的实战，我发现这一组合在国产化AI生态中展现出独特优势。
发布了文章1 月 28 日
MindSpore 大模型训练进阶：高效显存管理 + 增量式断点续训的实践
 文良_颜丑
在千亿参数大模型（如 LLaMA-7B/13B）的训练场景中，显存瓶颈与训练中断恢复是两大核心痛点 —— 前者直接限制模型规模，后者会导致工业级训练的时间与算力成本翻倍。本次分享基于 MindSpore 的高阶训练特性，构建 “分层显存优化 + 增量式断点续训” 的工业级大模型训练...
发布了文章1 月 28 日
MindSpore 可信 AI 进阶：区块链 + 零知识证明的模型溯源与隐私验证实践
 文良_颜丑
在金融风控、政务数据共享等强监管场景下，AI 模型的训练过程可追溯、推理结果可验证是落地核心要求。本次分享基于 MindSpore 与区块链技术栈，构建 “模型全生命周期上链存证 + 零知识证明（ZKP）隐私验证” 的可信 AI 方案，实现训练数据不泄露、模型参数可追溯、推...
发布了文章1 月 28 日
MindSpore实战：昇腾NPU上的深度学习模型优化全记录
 文良_颜丑
作为一名长期从事计算机视觉应用的开发者，我最近全面转向华为的MindSpore深度学习框架与昇腾NPU硬件平台。这一选择不仅源于对国产AI生态的支持，更是考虑到其在分布式训练和推理性能上的独特优势。
发布了文章2024-03-28
Diffusion扩散模型
 文良_颜丑
模型简介当前有四大生成模型：生成对抗模型、变微分自动编码器、流模型以及扩散模型。扩散模型在诸多应用领域都有出色的表现，如计算机视觉，NLP、波形signal处理、多模态建模、分子图建模、时间序列建模、对抗性净化等。原理：扩散现象物理：物质分子从高浓度向低浓...
发布了文章2024-03-28
MindSpore社区活动：图像语义分割模型-DeepLabV3
文良_颜丑
在前期的图像检测阶段，分割模型使用完全卷积的神经网络FCNN，其中掩模和边界被放置好，然后，输入通过一个非常深的网络进行处理，其中累积的卷积和池会导致图像的分辨率和质量显著降低，因此，结果是高信息丢失率的结果。DeepLab模型利用空洞卷积和空洞空间卷积池化...
发布了文章2024-03-28
MindSpore社区活动：InceptionV3和CIFAR-10的奇遇
 文良_颜丑
InceptionV3模型是谷歌Inception系列里面的第三代模型，相比于其它神经网络模型，Inception网络最大的特点在于将卷积核组合在一起，建立了一个多分支结构，使得网络能够并行地计算。Inception网络架构的优点更高的表现力：Inception网络具有更高的表现力，即可以在相...

加载更多