跳转到内容

摄入文件

如果你想让 OMem 摄入 Mac 上某个文件夹里的文档——同步下来的 OneDrive、一个 iCloud Drive 文件夹、某个项目目录,什么都行——那就看这一页。file 这一类是最通用的:把它指向一个目录,里面凡是支持的格式,它统统摄入。

最省事的路子是跑 setup 向导,它会自动认出 OneDrive / iCloud / Dropbox / Documents,让你挑。想自己手动配也行:

  1. 设好要摄入的文件夹(也就是”根目录”):

    Terminal window
    omem config set kinds.file.source_config.roots '["~/Library/CloudStorage/OneDrive-Personal", "~/Documents/projects"]'
  2. 打开这一类:

    Terminal window
    omem config set kinds.file.enabled true
  3. 摄入:

    Terminal window
    omem ingest --kind file

你根目录里凡是 支持的格式——PDF、Word、PowerPoint、Excel、Markdown、纯文本、HTML、图片——全都会进来。两个范围过滤器帮你把场面控制住(两个都能调):

配置项默认值作用
kinds.file.scope.max_file_size_mb50比这个大的文件跳过。
kinds.file.scope.exclude_patterns["~$*", ".DS_Store", "node_modules/**"]命中这些 glob 模式的就跳过。

举个例子,要是你还想顺手跳过一个 tmp 文件夹:

Terminal window
omem config set kinds.file.scope.exclude_patterns '["~$*", ".DS_Store", "node_modules/**", "tmp/**"]'
Terminal window
omem ingest status # 上一次跑都干了什么
omem wiki ls --kind file # 生成了哪些页

要是有东西没摄进来,omem ingest errors 会告诉你哪些失败了、为什么。详见 观察摄入过程

OMem 走到一个同步下来的 OneDrive 文件夹、撞见一个 .loop 文件时,它不会硬去解析那个二进制——而是把它交给 loop 这一类,让它去 SharePoint 把内容取回来。详见 摄入 Loop 笔记