百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

0成本打造私人文档管理系统,这个开源工具让你省下万元订阅费

yuyutoo 2025-01-07 16:59 3 浏览 0 评论

在这个数字化时代,我们每天都在处理大量的文件和文档,随着时间推移,这些纸质文件不断堆积,不仅占用大量空间,查找起来非常让人头疼。

你是否也曾因为找不到重要文件而焦虑不已?或是被满屋子的文件弄得焦头烂额?

而今天要介绍的这款开源神器 Paperless-ngx,带来了一站式的文档管理解决方案:智能OCR识别让所有扫描文件变得可搜索,强大的全文检索帮你快速定位文档,机器学习还能自动分类和打标签。

更赞的是,它支持多用户权限管理和文件安全分享,所有数据都在自己的服务器上。最重要的是,它完全免费,没有用户数限制,没有存储空间限制,帮你轻松省下每年上万元的订阅费用。

项目地址

https://github.com/paperless-ngx/paperless-ngx

项目特性

  • 强大的文档管理:支持标签、关联方、类型等多维度文档组织
  • 智能OCR识别:可识别100多种语言,将扫描文档转换为可搜索的文本
  • 全文检索:支持关键词提示、相关性排序、结果高亮显示
  • 本地存储:所有数据保存在您自己的服务器上,确保隐私安全
  • 机器学习:自动添加标签、识别文档类型
  • 批量处理:支持多核并行处理文档
  • 邮件导入:可配置多个邮箱账户自动导入文档
  • 文件格式:支持PDF、图片、Office文档等多种格式

群晖部署

下面一起来看看怎么通过群晖部署Paperless-ngx。

如果你了解命令行以及SSH,可以直接通过运行官方脚本进行部署。

bash -c "$(curl -L https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/main/install-paperless-ngx.sh)"

或者直接下载官方仓库的compose文件来部署。

因为 Paperless-ngx 项目需要数据库,而群晖中自带 MariaDB,所以我们可以复用数据库,不需要再单独创建数据库容器。

通过群晖 phpAdmin 套件,登录到数据库管理界面,在账户菜单下新增账户并同时创建数据库

如果不了解phpAdmin套件以及MariaDB数据库相关的配置,可以参阅这篇文章。

高级玩家必备 - 使用phpMyAdmin管理群晖中的数据库

配置完数据库后,在 File Station 套件中新增 paperless-ngx 项目的文件夹paperlessNgx。

并创建子文件夹comsume、data、exprot、media、redis五个文件夹。

分别进入属性界面,修改它们的权限为Everyone可读写。

下面来看看docker-compose文件,这里老宁修改了官方的compose文件,去掉了下载MariaDB 数据库的操作。我们只需把它复制粘贴保存为docker-compose.yml文件即可。

version: '3.4'
services:
  broker:
    image: docker.io/library/redis:7
    restart: unless-stopped
    volumes:
      - ${REDIS_DATA_DIR:-./redis}:/data

  webserver:
    image: ghcr.io/paperless-ngx/paperless-ngx:latest
    restart: unless-stopped
    depends_on:
      - broker
      - gotenberg
      - tika
    ports:
      - "${PORT:-8000}:8000"
    volumes:
      - ${DATA_DIR:-./data}:/usr/src/paperless/data
      - ${MEDIA_DIR:-./media}:/usr/src/paperless/media
      - ${EXPORT_DIR:-./export}:/usr/src/paperless/export
      - ${CONSUME_DIR:-./consume}:/usr/src/paperless/consume
    environment:
      PAPERLESS_REDIS: redis://broker:6379
      PAPERLESS_DBENGINE: mariadb
      PAPERLESS_DBHOST: ${DB_HOST:-localhost}
      PAPERLESS_DBUSER: ${DB_USER:-paperless}
      PAPERLESS_DBPASS: ${DB_PASSWORD:-paperless}
      PAPERLESS_DBPORT: ${DB_PORT:-3306}
      PAPERLESS_TIKA_ENABLED: 1
      PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000
      PAPERLESS_TIKA_ENDPOINT: http://tika:9998

  gotenberg:
    image: docker.io/gotenberg/gotenberg:8.7
    restart: unless-stopped
    command:
      - "gotenberg"
      - "--chromium-disable-javascript=true"
      - "--chromium-allow-list=file:///tmp/.*"

  tika:
    image: docker.io/apache/tika:latest
    restart: unless-stopped

对应的环境变量文件如下,同样把它复制粘贴下来并保存为.env文件。

PORT=8200

DATA_DIR=/volume1/test/paperlessNgx/data
MEDIA_DIR=/volume1/test/paperlessNgx/media
EXPORT_DIR=/volume1/test/paperlessNgx/export
CONSUME_DIR=/volume1/test/paperlessNgx/consume
REDIS_DATA_DIR=/volume1/test/paperlessNgx/redis

DB_HOST=192.168.2.99
DB_NAME=paperless
DB_USER=paperless
DB_PASSWORD=12345678
DB_PORT=3307

PAPERLESS_TIME_ZONE=Asia/Shanghai
  • 如果要修改 paperless-ngx 服务的端口,可以PORT对应的值。
  • DATA_DIR 这五个变量对应的值为前面创建文件夹的路经。
  • DB_HOST为数据库配置,需对应开始在 MariaDB 中创建的 paperless 数据库相关值。
  • 至于 PAPERLESS_TIME_ZONE 等其他的配置可以参考官方文档进行配置。

修改完毕后,把docker-compose.yml和.env文件都上传到paperlessNgx文件夹下。

打开群晖 Container Manager 套件,在项目菜单中新增一个项目paperless-ngx,选择路径为前面创建的文件夹并选择使用已有的docker-compose文件创建

接着点击下一步直接进行构建。

可以查看paperless-webserver容器的日志来观察构建状态。因为要创建数据库操作,所以过称较慢。

还有种方法更简单:尝试用浏览器打开【群晖ip:8200】,如果界面出现则构建成功。

构建完毕后在paperless-webserver容器中打开终端机进行账户配置。

需要先点击新增才能输入命令。

输入python3 manage.py createsuperuser创建用户。(输入用户名、邮箱和密码,邮箱可选,密码输入会看不见

再用浏览器打开【群晖ip:8200】,输入用户名和密码就可以登录。

使用

首页点击右侧的浏览文件即可上传文档到 paperless-ngx 中。

paperless-ngx 支持多种文档格式。

支持联系人、标签、自定文档类型创建。

可以直接对文档内容进行搜索。文档在上传时,已经被OCR识别转为了PFD,所以可以直接搜索文档的内容。

除了网页上传,我们也可以通过各平台客户端把文档上传到 paperless-ngx 中。

具体细节可以查看官方文档:https://github.com/paperless-ngx/paperless-ngx/wiki/Related-Projects。

后记

paperless-ngx 这个项目是非常强大的,使用的人群也非常广泛。它可以把我们平时用到的文档进行分类管理,并且还支持内容级别的搜索,极大解决了文件杂乱的问题。

这篇文章其实写的不是很全,很多用法、高级功能都没有进行介绍,因为它的反代配置我搞了几个小时都没有成功,所以把我整不会了。

如果哪位小伙伴的反代配置成功了,麻烦告诉我是如何配置的。

我是老宁

一个热爱技术的程序员和极客,群晖NAS深度玩家!

专注NAS相关技术分享,原创!干货!

觉得老宁的文章对你有帮助,记得点赞、收藏、加关注

相关推荐

网站制作的流程是什么呢?简单大概的流程

关注我!了解更多网站建设的小干货~如今,随着网络时代的全面到来,网站在人们的生活和工作中发挥着极其重要的作用。网站制作的发展使更多的人加入了这个行业。如果你想掌握网站制作的知识,你可以在学校或网上学习...

一款谷歌(Google)打造的广告网页设计制作软件

GoogleWebDesigner是由谷歌(Google)打造的一款广告网页设计制作软件,它能够帮助从事于广告网页设计工作或是有这方面需求的用户更加有效快速的进行完成相关的行业设计工作,软件可以支...

普通网站如何制作一个网站?

对行外人来讲,在预备做一个网站项目时,最想了解的无非就是网站制作的悉数流程。网站制作是要有计划的,事先策划好才能更快更好的完成。网站的几个基本组成元素:域名+空间+程序+模板+维护经验+日常管理.网站...

用纯Python就能写一个漂亮的网页,再见HTML

再见HTML!用纯Python就能写一个漂亮的网页我们在写一个网站或者一个网页界面的时候,需要学习很多东西,对小白来说很困难!比如我要做一个简单的网页交互:天啊,听听头都大呢!其实我就给老板做一个...

HTML表单4(form的action、method属性)——零基础自学网页制作

表单的工作过程表单的信息发送与处理过程可以简单的进行图示,如下图。以注册会员为例,用户在自己的电脑上打开相应的注册表单页面填写信息,完成填写后点击提交按钮,也就是图中1所示过程。这时浏览器会将这些信息...

官网网站设计网页制作模板建站前端自适应响应式网站仿站门户

案例背景航科慧联无人机搜索雷达能够在多种天气下检测到无人机的入侵、并获得目标的距离、方向和高度等具体信息,是无人机反制作战中的关键设备。航科慧联无人机搜索雷达能够在多种天气下检测到无人机的入侵、并获得...

软网推荐:在线制作软件图标

在制作PPT演示、软件、网页或其他程序时,我们往往需要用到一些个性化的图标。现在,即便是不安装任何软件,也可以上网在线制作自己需要的图标。首先访问如下制作网址:http://www.rw-design...

自定义跳转的h5网页如何制作?

文章来源:墨鹊微站...

网页如何制作?这几点要知道

这是一个个性张扬的时代,也是一个动手能力和动脑能力都比较强的时代,因此很多人对于能够自己动手完成的东西,都不太想假手于人。于是网页制作成了各大搜索引擎里面排名比较靠前的关键词之一。想要知道网页如何制作...

手机端网站简单制作教程,怎么快速制作一个移动端的网站

想要创建一个手机端的网站,需要有域名、已经完成网站页面的开发设计,零基础朋友不懂代码技术,直接在线套用乔拓云里面的网站模板来开发是比较简单可行的,进入乔拓云网,复制网站模板编辑网站的内容,注册域名后绑...

几张动图教你轻松了解Dreamweaver做网页

施老师:当今可是互联网时代,人们的生活、社交离不开互联网,那么不管你是网页设计师,还是销售达人,还是个体户,总必不可少的要在网上呈现一些页面给客户看,这个就是让你做网页,而Dreamweaver是做网...

用Deepseek制作网页版的汉诺塔游戏保姆级教程

在deepseek中输入:“帮我做一个网页版的汉诺塔演示游戏,游戏包含2层、3层、4层、5层的汉诺塔游戏演示,制作自动求解演示按钮,点击按钮就可以生成出步数,同时自动演示最优解动画。”...

JS制作网页版计算器

大家晚上好,我是洁哥,抱歉今天有点晚了,但是洁哥不会缺席哦,今天我们来看一个JS实现网页版计算器的例题,先来看一看出来的效果吧(123+123=246)(123-123=0)(123*123=1512...

网页制作流程哪几步

在数字化时代,网页制作成为企业和个人展示形象、传递信息的重要方式。但是,许多人对于网页制作的流程仍感到困扰。为了解决这一问题,我们将深入探讨网页制作的关键步骤,助您更好地理解和应用这一过程。第一步:需...

这4个设计技巧,教你做好个人网页制作

随着互联网发展,个人建站已经不是什么稀奇事,学生、求职者、插画师、摄影师、作家……都可以制作个人网站,用来展示自身形象,或者吸引粉丝。那么如何做好个人网站呢?在不懂设计和技术知识的情况下,个人网页制作...

取消回复欢迎 发表评论: