支持站点
MagicMD 的目标不是做“全网万能爬虫”,而是把常见公开文章页面稳定转换成 Markdown 内容包。不同平台的支持程度不同。
已重点优化
| 平台 | 支持情况 | 重点处理 |
|---|---|---|
| 微信公众号 | 深度优化 | 图片、视频链接、空 GIF、编辑器素材、来源信息、富文本样式 |
| 掘金 | 已验证 | 代码块、标题层级、图片下载、外链真实地址还原 |
| CSDN | 已验证 | 代码块清理、Mermaid/图表回退、头部链接、异常控件过滤 |
通用网页
普通网页会走 generic adapter。它适合结构比较清楚的文章页或博客页,但不会保证和上面三个平台同等级的细节优化。
可能需要人工复核的内容
- 登录后才完整显示的文章。
- 需要付费、关注或授权才能看的内容。
- 依赖前端动态渲染的复杂图表。
- 视频防盗链或带临时签名的媒体地址。
- 大量自定义排版、Canvas、SVG 动画或交互组件。
建议工作流
先用小批量验证:
bash
magicmd batch urls.txt -o output/再查看每篇文章的 extraction-report.json。如果报告里出现 warning,优先打开对应的 article.md 和原文对照。