百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

0成本打造私人文档管理系统,这个开源工具让你省下万元订阅费

yuyutoo 2025-01-07 16:59 5 浏览 0 评论

在这个数字化时代,我们每天都在处理大量的文件和文档,随着时间推移,这些纸质文件不断堆积,不仅占用大量空间,查找起来非常让人头疼。

你是否也曾因为找不到重要文件而焦虑不已?或是被满屋子的文件弄得焦头烂额?

而今天要介绍的这款开源神器 Paperless-ngx,带来了一站式的文档管理解决方案:智能OCR识别让所有扫描文件变得可搜索,强大的全文检索帮你快速定位文档,机器学习还能自动分类和打标签。

更赞的是,它支持多用户权限管理和文件安全分享,所有数据都在自己的服务器上。最重要的是,它完全免费,没有用户数限制,没有存储空间限制,帮你轻松省下每年上万元的订阅费用。

项目地址

https://github.com/paperless-ngx/paperless-ngx

项目特性

  • 强大的文档管理:支持标签、关联方、类型等多维度文档组织
  • 智能OCR识别:可识别100多种语言,将扫描文档转换为可搜索的文本
  • 全文检索:支持关键词提示、相关性排序、结果高亮显示
  • 本地存储:所有数据保存在您自己的服务器上,确保隐私安全
  • 机器学习:自动添加标签、识别文档类型
  • 批量处理:支持多核并行处理文档
  • 邮件导入:可配置多个邮箱账户自动导入文档
  • 文件格式:支持PDF、图片、Office文档等多种格式

群晖部署

下面一起来看看怎么通过群晖部署Paperless-ngx。

如果你了解命令行以及SSH,可以直接通过运行官方脚本进行部署。

bash -c "$(curl -L https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/main/install-paperless-ngx.sh)"

或者直接下载官方仓库的compose文件来部署。

因为 Paperless-ngx 项目需要数据库,而群晖中自带 MariaDB,所以我们可以复用数据库,不需要再单独创建数据库容器。

通过群晖 phpAdmin 套件,登录到数据库管理界面,在账户菜单下新增账户并同时创建数据库

如果不了解phpAdmin套件以及MariaDB数据库相关的配置,可以参阅这篇文章。

高级玩家必备 - 使用phpMyAdmin管理群晖中的数据库

配置完数据库后,在 File Station 套件中新增 paperless-ngx 项目的文件夹paperlessNgx。

并创建子文件夹comsume、data、exprot、media、redis五个文件夹。

分别进入属性界面,修改它们的权限为Everyone可读写。

下面来看看docker-compose文件,这里老宁修改了官方的compose文件,去掉了下载MariaDB 数据库的操作。我们只需把它复制粘贴保存为docker-compose.yml文件即可。

version: '3.4'
services:
  broker:
    image: docker.io/library/redis:7
    restart: unless-stopped
    volumes:
      - ${REDIS_DATA_DIR:-./redis}:/data

  webserver:
    image: ghcr.io/paperless-ngx/paperless-ngx:latest
    restart: unless-stopped
    depends_on:
      - broker
      - gotenberg
      - tika
    ports:
      - "${PORT:-8000}:8000"
    volumes:
      - ${DATA_DIR:-./data}:/usr/src/paperless/data
      - ${MEDIA_DIR:-./media}:/usr/src/paperless/media
      - ${EXPORT_DIR:-./export}:/usr/src/paperless/export
      - ${CONSUME_DIR:-./consume}:/usr/src/paperless/consume
    environment:
      PAPERLESS_REDIS: redis://broker:6379
      PAPERLESS_DBENGINE: mariadb
      PAPERLESS_DBHOST: ${DB_HOST:-localhost}
      PAPERLESS_DBUSER: ${DB_USER:-paperless}
      PAPERLESS_DBPASS: ${DB_PASSWORD:-paperless}
      PAPERLESS_DBPORT: ${DB_PORT:-3306}
      PAPERLESS_TIKA_ENABLED: 1
      PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000
      PAPERLESS_TIKA_ENDPOINT: http://tika:9998

  gotenberg:
    image: docker.io/gotenberg/gotenberg:8.7
    restart: unless-stopped
    command:
      - "gotenberg"
      - "--chromium-disable-javascript=true"
      - "--chromium-allow-list=file:///tmp/.*"

  tika:
    image: docker.io/apache/tika:latest
    restart: unless-stopped

对应的环境变量文件如下,同样把它复制粘贴下来并保存为.env文件。

PORT=8200

DATA_DIR=/volume1/test/paperlessNgx/data
MEDIA_DIR=/volume1/test/paperlessNgx/media
EXPORT_DIR=/volume1/test/paperlessNgx/export
CONSUME_DIR=/volume1/test/paperlessNgx/consume
REDIS_DATA_DIR=/volume1/test/paperlessNgx/redis

DB_HOST=192.168.2.99
DB_NAME=paperless
DB_USER=paperless
DB_PASSWORD=12345678
DB_PORT=3307

PAPERLESS_TIME_ZONE=Asia/Shanghai
  • 如果要修改 paperless-ngx 服务的端口,可以PORT对应的值。
  • DATA_DIR 这五个变量对应的值为前面创建文件夹的路经。
  • DB_HOST为数据库配置,需对应开始在 MariaDB 中创建的 paperless 数据库相关值。
  • 至于 PAPERLESS_TIME_ZONE 等其他的配置可以参考官方文档进行配置。

修改完毕后,把docker-compose.yml和.env文件都上传到paperlessNgx文件夹下。

打开群晖 Container Manager 套件,在项目菜单中新增一个项目paperless-ngx,选择路径为前面创建的文件夹并选择使用已有的docker-compose文件创建

接着点击下一步直接进行构建。

可以查看paperless-webserver容器的日志来观察构建状态。因为要创建数据库操作,所以过称较慢。

还有种方法更简单:尝试用浏览器打开【群晖ip:8200】,如果界面出现则构建成功。

构建完毕后在paperless-webserver容器中打开终端机进行账户配置。

需要先点击新增才能输入命令。

输入python3 manage.py createsuperuser创建用户。(输入用户名、邮箱和密码,邮箱可选,密码输入会看不见

再用浏览器打开【群晖ip:8200】,输入用户名和密码就可以登录。

使用

首页点击右侧的浏览文件即可上传文档到 paperless-ngx 中。

paperless-ngx 支持多种文档格式。

支持联系人、标签、自定文档类型创建。

可以直接对文档内容进行搜索。文档在上传时,已经被OCR识别转为了PFD,所以可以直接搜索文档的内容。

除了网页上传,我们也可以通过各平台客户端把文档上传到 paperless-ngx 中。

具体细节可以查看官方文档:https://github.com/paperless-ngx/paperless-ngx/wiki/Related-Projects。

后记

paperless-ngx 这个项目是非常强大的,使用的人群也非常广泛。它可以把我们平时用到的文档进行分类管理,并且还支持内容级别的搜索,极大解决了文件杂乱的问题。

这篇文章其实写的不是很全,很多用法、高级功能都没有进行介绍,因为它的反代配置我搞了几个小时都没有成功,所以把我整不会了。

如果哪位小伙伴的反代配置成功了,麻烦告诉我是如何配置的。

我是老宁

一个热爱技术的程序员和极客,群晖NAS深度玩家!

专注NAS相关技术分享,原创!干货!

觉得老宁的文章对你有帮助,记得点赞、收藏、加关注

相关推荐

IntelliJ IDEA插件开发(java开发idea插件)

引言IntelliJIDEA是JetBrains公司开发的一款广受欢迎的集成开发环境(IDE)。它不仅支持Java等多种编程语言,还通过插件系统提供了强大的扩展能力。本分享旨在介绍如何使用Java开...

如何验证自己的idea或者如何产生idea?小编教你如何检索……

申请专利前首先要做的是检索查重,如果你的构思已经被别人申请过专利,那么就不符合专利“新颖性”的要求。因此,如果你有了idea之后如何验证自己的idea具备新颖性,或者如何产生idea呢?今天,小编带着...

idea激活码失效了,这样解决,稳定使用!

最近官网封控比较严格,正式版激活码是不是又掉线了?掉线请看这里,这里有一个解决的方法,就是让工具不联网就可以继续使用激活码了。激活码本来就叫离线激活码,现在要怎么使id工具不联网?·可以打开这里帮助,...

5分钟解决 IntelliJ IDEA 使用问题(免费激活至 2100 年)

直接进入正题!效果安装1.官网下载idea...

【中高级前端必看】- 结合代码实践,全面学习前端工程化

前言前端工程化,简而言之就是软件工程+前端,以自动化的形式呈现。就个人理解而言:前端工程化,从开发阶段到代码发布生产环境,包含了以下几个内容:开发构建测试部署...

Android绘制流程(android界面绘制)

Android绘制流程来源:极客头条MFC、WTL、DuiLib、QT、Skia、OpenGL。Android里面的画图分为2D和3D两种:2D是由Skia来实现的,3D部分是由OpenGL实现...

ExpandListView 的一种巧妙写法(g的另一种写法上下两个圈连起来怎么打)

ExpandListView大家估计也用的不少了,一般有需要展开的需求的时候,大家不约而同的都想到了它然后以前自己留过记录的一般都会找找以前自己的代码,没有记录习惯的就会百度、谷歌,这里吐槽一下,好几...

通过圆形载入View了解自定义View(圆形div怎么搞)

这是自定义View的第一篇文章,通过制作简单的自定义View来了解自定义View的流程。自定义View是Android学习和开发中必不可少的一部分。通过自定义View我们可以制作丰富绚丽的控件,自定...

鸿蒙开源第三方组件——自定义流式布局组件FlowLayout_ohos

前言基于安卓平台的自定义流式布局组件FlowLayout(https://blog.csdn.net/fzhhsa/article/details/103003019),实现了鸿蒙的功能化迁移和重构...

「经典总结」一个View,从无到有会走的三个流程,你知道吗?

...

手把手带你写FlowLayout(流式布局)

流式布局在android中主要应用在搜索记录和用户标签,下面是效果图首先我们分析流式布局的原理。其实就是当一个子view加上之前的子view的宽度超过了父容器的宽度的时候就换行。接下来我们手把手书写流...

Android View(android view使用mvvm架构)

AndroidUI界面架构每个Activity包含一个PhoneWindow对象,PhoneWindow设置DecorView为应用窗口的根视图,在里面就是TitleView和ContentView...

《教你步步为营掌握自定义View》一文读后感

今天读了简书作者[milter]的一篇文章《教你步步为营掌握自定义View》,大有裨益。作者以幽默风趣、通俗易懂的大白话一步步讲述了View的来龙去脉,甚是详尽,实属自定义View文集中的一篇非常优秀...

Android面试官:你究竟有多大的勇气,在简历上写了“精通”?

所周知,简历上“了解=听过名字;熟悉=知道是啥;熟练=用过;精通=做过东西”。最近在面试,我现在十分后悔在简历上写了“精通”二字…先给大家看看我简历上的技能清单:良好的java基础,熟悉掌握面向对象思...

iOS 视图---动画渲染机制探究(动画渲染用哪个软件最好)

腾讯Bugly特约作者:陈向文终端的开发,首当其冲的就是视图、动画的渲染,切换等等。用户使用App时最直接的体验就是这个界面好不好看,动画炫不炫,滑动流不流畅。UI就是App的门面,它的体验伴...

取消回复欢迎 发表评论: