Biography
我致力于研究云—边—端一体化的大模型推理优化与工程落地,聚焦模型压缩、异构并行与隐私安全。目前,任 CALAS 算法研究员,曾并在中科院香港创新研究院担任 LLM 应用工程师(智慧医疗方向),主导垂直场景微调与评测体系建设。我获得香港城市大学电子信息工程硕士(优秀毕业生),本科毕业于福州大学。当前研究覆盖跨层压缩(低秩/量化/KV 压缩)、云边协同并行切分、存储协同(SSD 直通、NUMA 优化)与 HE/TEE 等安全推理实践。
相关背景
- 方向:LLM垂直化微调、模型压缩与异构计算、云-边协同推理、隐私计算
- 经历:CALAS 算法研究员;中科院香港创新研究院 LLM 应用工程师(智慧医疗);徐工集团研究院物联网算法工程师(工程机械部)
- 教育:香港城市大学 电子信息工程 硕士(优秀毕业生);福州大学 本科
- 成果:2025 IEIG 世界专利赛银奖;第一作者 EI 1 篇、SCI 3 篇(在投);US 专利 1 项(在投);
垂直LLM实证
+30% 准确率
手术知识QA;有害幻觉 -80%
边缘加速收益
5--10× 计算降幅
内存占用 -70%+
系统适配
硬件验收经验
鲲鹏 vs A100 标准化评测
代表工作与可迁移价值
- 垂直领域LLM微调(手术场景):LoRA/PEFT + Partial Freezing;百万级 Token 语料与评测基准;QA +30%,幻觉 -80%
- 工业边缘AI加速与安全:张量分解×量化×KV 压缩;同态加密推理预研;算力成本大幅下降
- 硬件与系统:鲲鹏/A100 对齐测评与报告,标准化验收与工具链
未来研究方向:AI on Edge vs Cloud
- 架构协同:建立云-边统一的推理调度框架,按请求特征(上下文长短、时延等级、合规级别)进行分流与动态迁移;边端处理低时延/隐私优先,云端处理长上下文/高吞吐。
- 模型形态:边缘侧采用蒸馏/量化/低秩的轻量模型与 KV 压缩,云端保持全精度或混精度大模型;通过知识蒸馏与参数对齐保持一致性。
- 并行与切分:针对硬件画像自适配张量/流水/序列并行;云-边之间支持层/块级切分与 KV 共享,结合批处理与预约执行降低尾时延。
- 存储协同:权重与 KV 的热-冷分层与 SSD 直通加载;跨设备缓存与预取策略,NUMA/PCIe 拓扑感知。
- 安全与合规:边端进行 PII 脱敏、同态/TEE 子路径推理;云端进行审计与再评估;端云密钥分离与可追溯日志。
- 评测基线:构建覆盖 QPS、P50/P99、能耗/成本、精度一致性的多维基准;输出 Pareto 前沿与可复用脚本工具链。
研究兴趣与问题域
- 跨层压缩:低秩分解 + 4/8-bit 量化 + KV-Cache 压缩,长上下文友好
- 协同并行与切分:张量/流水/序列并行的自适配切分,基于显存/带宽/IO画像
- 存储协同推理:权重/KV 热-冷分层,SSD直通加载(PagedAttention 风格)、NUMA 优化
- 安全与可信:后量子(PQC)同态加密(HE)算子子集,端云密钥分离与可审计日志