From 2bc9a7cc18335a8b3f174afe1f07e33181e2f345 Mon Sep 17 00:00:00 2001 From: Dong Liu <167004351+bjliudong@users.noreply.github.com> Date: Wed, 24 Apr 2024 12:20:56 +0800 Subject: [PATCH] Add Chinese readme for DeepDoc (#515) ### What problem does this PR solve? Add Chinese explanation for deepdoc ### Type of change - [ ] Bug Fix (non-breaking change which fixes an issue) - [ ] New Feature (non-breaking change which adds functionality) - [*] Documentation Update - [ ] Refactoring - [ ] Performance Improvement - [ ] Other (please describe): --- deepdoc/README_zh.md | 117 ++++++++++++++++++++++++++++++++++++++++++- 1 file changed, 116 insertions(+), 1 deletion(-) diff --git a/deepdoc/README_zh.md b/deepdoc/README_zh.md index c43cc56..afcbac2 100644 --- a/deepdoc/README_zh.md +++ b/deepdoc/README_zh.md @@ -1 +1,116 @@ -[English](./README.md) | 简体ä¸ć–‡ \ No newline at end of file +[English](./README.md) | 简体ä¸ć–‡ + +# *Deep*Doc + +- [*Deep*Doc](#deepdoc) + - [1. 介绍](#1-介绍) + - [2. 视觉处ç†](#2-视觉处ç†) + - [3. č§Łćžĺ™¨](#3-č§Łćžĺ™¨) + - [简历](#简历) + +<a name="1"></a> +## 1. 介绍 + +对于来自不ĺŚé˘†ĺźźă€ĺ…·ćś‰ä¸ŤĺŚć ĽĺĽŹĺ’Śä¸ŤĺŚćŁ€ç´˘č¦ć±‚的大量文档,准确的ĺ†ćžć为一项ćžĺ…·ćŚ‘ć性的任务。*Deep*Doc ĺ°±ćŻä¸şäş†čż™ä¸Şç›®çš„而诞生的。ĺ°ç›®ĺ‰Ťä¸şć˘ďĽŚ*Deep*Doc ä¸ćś‰ä¸¤ä¸Şç»„ćé¨ĺ†ďĽšč§†č§‰ĺ¤„ç†ĺ’Śč§Łćžĺ™¨ă€‚如果您对ć‘们的OCRă€ĺ¸ĺ±€č݆ĺ«ĺ’ŚTSR结果感兴趣,您可以čżčˇŚä¸‹éť˘çš„测试程序。 + +```bash +python deepdoc/vision/t_ocr.py -h +usage: t_ocr.py [-h] --inputs INPUTS [--output_dir OUTPUT_DIR] + +options: + -h, --help show this help message and exit + --inputs INPUTS Directory where to store images or PDFs, or a file path to a single image or PDF + --output_dir OUTPUT_DIR + Directory where to store the output images. Default: './ocr_outputs' +``` + +```bash +python deepdoc/vision/t_recognizer.py -h +usage: t_recognizer.py [-h] --inputs INPUTS [--output_dir OUTPUT_DIR] [--threshold THRESHOLD] [--mode {layout,tsr}] + +options: + -h, --help show this help message and exit + --inputs INPUTS Directory where to store images or PDFs, or a file path to a single image or PDF + --output_dir OUTPUT_DIR + Directory where to store the output images. Default: './layouts_outputs' + --threshold THRESHOLD + A threshold to filter out detections. Default: 0.5 + --mode {layout,tsr} Task mode: layout recognition or table structure recognition +``` + +HuggingFace为ć‘们的模型ćŹäľ›ćśŤĺŠˇă€‚ĺ¦‚ćžśä˝ ĺś¨ä¸‹č˝˝HuggingFace模型时é‡ĺ°é—®é˘ďĽŚčż™ĺŹŻč˝äĽšćś‰ć‰€ĺ¸®ĺŠ©ďĽďĽ + +```bash +export HF_ENDPOINT=https://hf-mirror.com +``` + +<a name="2"></a> +## 2. č§†č§‰ĺ¤„ç† + +作为人类,ć‘们使用视觉信ćŻćťĄč§Łĺ†łé—®é˘ă€‚ + + - **OCRďĽOptical Character Recognition,光ĺ¦ĺ—符识ĺ«ďĽ‰**。由于许多文档é˝ćŻä»Ąĺ›ľĺŹĺ˝˘ĺĽŹĺ‘现的,ć–者至少č˝ĺ¤źč˝¬ćŤ˘ä¸şĺ›ľĺŹďĽŚĺ› ć¤OCRćŻć–‡ćś¬ćŹĺŹ–çš„ä¸€ä¸Şéťžĺ¸¸é‡Ťč¦ă€ĺźşćś¬ďĽŚç”šč‡łé€šç”¨çš„解决方ćˇă€‚ + + ```bash + python deepdoc/vision/t_ocr.py --inputs=path_to_images_or_pdfs --output_dir=path_to_store_result + ``` + + 输入可以ćŻĺ›ľĺŹć–PDF的目录,ć–者单个图ĺŹă€PDF文件。您可以查看文件夹 `path_to_store_result` ,其ä¸ćś‰ćĽ”示结果位置的图ĺŹďĽŚä»ĄĺŹŠĺŚ…ĺ«OCR文本的txt文件。 + + <div align="center" style="margin-top:20px;margin-bottom:20px;"> + <img src="https://github.com/infiniflow/ragflow/assets/12318111/f25bee3d-aaf7-4102-baf5-d5208361d110" width="900"/> + </div> + + - ĺ¸ĺ±€č݆ĺ«ďĽLayout recognition)。来自不ĺŚé˘†ĺźźçš„文件可č˝ćś‰ä¸ŤĺŚçš„ĺ¸ĺ±€ďĽŚĺ¦‚报纸ă€ćť‚ĺż—ă€äą¦ç±Ťĺ’Śç®€ĺŽ†ĺś¨ĺ¸ĺ±€ć–ąéť˘ćŻä¸ŤĺŚçš„。只有当机器有准确的ĺ¸ĺ±€ĺ†ćžć—¶ďĽŚĺ®ć‰Ťč˝ĺ†łĺ®ščż™äş›ć–‡ćś¬é¨ĺ†ćŻčżžç»çš„čżćŻä¸Ťčżžç»çš„,ć–者这个é¨ĺ†éś€č¦čˇ¨ç»“构识ĺ«ďĽTable Structure Recognition,TSR)来处ç†ďĽŚć–者这个é¨ä»¶ćŻä¸€ä¸Şĺ›ľĺ˝˘ĺą¶ç”¨čż™ä¸Şć ‡é˘ćťĄćŹŹčż°ă€‚ć‘们有10个基本ĺ¸ĺ±€ç»„件,涵盖了大多数ć…况: + - 文本 + - ć ‡é˘ + - 配图 + - é…Ťĺ›ľć ‡é˘ + - čˇ¨ć Ľ + - čˇ¨ć Ľć ‡é˘ + - 页头 + - 页尾 + - 参č€ĺĽ•用 + - 公式 + + 请尝试以下命令以查看ĺ¸ĺ±€ćŁ€ćµ‹ç»“ćžśă€‚ + + ```bash + python deepdoc/vision/t_recognizer.py --inputs=path_to_images_or_pdfs --threshold=0.2 --mode=layout --output_dir=path_to_store_result + ``` + + 输入可以ćŻĺ›ľĺŹć–PDF的目录,ć–者单个图ĺŹă€PDF文件。您可以查看文件夹 `path_to_store_result` ,其ä¸ćś‰ćľç¤şćŁ€ćµ‹ç»“ćžśçš„ĺ›ľĺŹďĽŚĺ¦‚下所示: + <div align="center" style="margin-top:20px;margin-bottom:20px;"> + <img src="https://github.com/infiniflow/ragflow/assets/12318111/07e0f625-9b28-43d0-9fbb-5bf586cd286f" width="1000"/> + </div> + + - **TSRďĽTable Structure Recognition,表结构识ĺ«ďĽ‰**。数据表ćŻä¸€ç§Ťĺ¸¸ç”¨çš„结构,用于表示包括数ĺ—ć–文本在内的数据。表的结构可č˝éťžĺ¸¸ĺ¤Ťćť‚ďĽŚćŻ”ĺ¦‚ĺ±‚ć¬ˇç»“ćž„ć ‡é˘ă€č·¨ĺŤ•ĺ…ć Ľĺ’ŚćŠ•ĺ˝±čˇŚć ‡é˘ă€‚除了TSR,ć‘们čżĺ°†ĺ†…容重新组ĺćLLM可以ĺľĺĄ˝ç†č§Łçš„句ĺ。TSRä»»ĺŠˇćś‰äş”ä¸Şć ‡çľďĽš + - ĺ— + - 行 + - ĺ—ć ‡é˘ + - čˇŚć ‡é˘ + - ĺ并单ĺ…ć Ľ + + 请尝试以下命令以查看ĺ¸ĺ±€ćŁ€ćµ‹ç»“ćžśă€‚ + + ```bash + python deepdoc/vision/t_recognizer.py --inputs=path_to_images_or_pdfs --threshold=0.2 --mode=tsr --output_dir=path_to_store_result + ``` + + 输入可以ćŻĺ›ľĺŹć–PDF的目录,ć–者单个图ĺŹă€PDF文件。您可以查看文件夹 `path_to_store_result` ,其ä¸ĺŚ…ĺ«ĺ›ľĺŹĺ’Śhtml页面,这些页面展示了以下检测结果: + + <div align="center" style="margin-top:20px;margin-bottom:20px;"> + <img src="https://github.com/infiniflow/ragflow/assets/12318111/cb24e81b-f2ba-49f3-ac09-883d75606f4c" width="1000"/> + </div> + +<a name="3"></a> +## 3. č§Łćžĺ™¨ + +PDFă€DOCXă€EXCELĺ’ŚPPTĺ››ç§Ťć–‡ćˇŁć ĽĺĽŹé˝ćś‰ç›¸ĺş”的解ćžĺ™¨ă€‚最复杂的ćŻPDFč§Łćžĺ™¨ďĽŚĺ› 为PDF具有çµć´»ć€§ă€‚PDFč§Łćžĺ™¨çš„输出包括: + - 在PDFä¸ćś‰č‡Şĺ·±ä˝Ťç˝®çš„文本块ďĽéˇµç 和矩形位置)。 + - 带有PDFčŁĺ‰Şĺ›ľĺŹçš„čˇ¨ć ĽďĽŚä»ĄĺŹŠĺ·˛ç»Źçż»čŻ‘ć自然čŻč¨€ĺŹĄĺ的内容。 + - 图ä¸ĺ¸¦ć ‡é˘ĺ’Ść–‡ĺ—的图。 + +### 简历 + +简历ćŻä¸€ç§Ťéťžĺ¸¸ĺ¤Ťćť‚的文件。一份由ĺ„ç§Ťĺ¸ĺ±€çš„非结构化文本组ć的简历可以ĺ†č§Łä¸şç”±čż‘百个ĺ—段组ć的结构化数据。ć‘们čżć˛ˇćś‰ć‰“开解ćžĺ™¨ďĽŚĺ› 为ć‘们在解ćžčż‡ç¨‹äą‹ĺŽć‰“开了处ç†ć–ąćł•。 -- GitLab