From 2bc9a7cc18335a8b3f174afe1f07e33181e2f345 Mon Sep 17 00:00:00 2001
From: Dong Liu <167004351+bjliudong@users.noreply.github.com>
Date: Wed, 24 Apr 2024 12:20:56 +0800
Subject: [PATCH] Add Chinese readme for DeepDoc (#515)

### What problem does this PR solve?

Add Chinese explanation for deepdoc

### Type of change

- [ ] Bug Fix (non-breaking change which fixes an issue)
- [ ] New Feature (non-breaking change which adds functionality)
- [*] Documentation Update
- [ ] Refactoring
- [ ] Performance Improvement
- [ ] Other (please describe):
---
 deepdoc/README_zh.md | 117 ++++++++++++++++++++++++++++++++++++++++++-
 1 file changed, 116 insertions(+), 1 deletion(-)

diff --git a/deepdoc/README_zh.md b/deepdoc/README_zh.md
index c43cc56..afcbac2 100644
--- a/deepdoc/README_zh.md
+++ b/deepdoc/README_zh.md
@@ -1 +1,116 @@
-[English](./README.md) | ç®€ä˝“ä¸ć–‡
\ No newline at end of file
+[English](./README.md) | ç®€ä˝“ä¸ć–‡
+
+# *Deep*Doc
+
+- [*Deep*Doc](#deepdoc)
+  - [1. ä»‹ç»Ť](#1-ä»‹ç»Ť)
+  - [2. č§†č§‰ĺ¤„ç†](#2-č§†č§‰ĺ¤„ç†)
+  - [3. č§Łćžĺ™¨](#3-č§Łćžĺ™¨)
+    - [ç®€ĺŽ†](#ç®€ĺŽ†)
+
+<a name="1"></a>
+## 1. ä»‹ç»Ť
+
+ĺŻąäşŽćťĄč‡Şä¸ŤĺŚé˘†ĺźźă€ĺ…·ćś‰ä¸ŤĺŚć ĽĺĽŹĺ’Śä¸ŤĺŚćŁ€ç´˘č¦ć±‚çš„ĺ¤§é‡Źć–‡ćˇŁďĽŚĺ‡†çˇ®çš„ĺ†ćžćä¸şä¸€éˇąćžĺ…·ćŚ‘ćć€§çš„ä»»ĺŠˇă€‚*Deep*Doc ĺ°±ćŻä¸şäş†čż™ä¸Şç›®çš„č€ŚčŻžç”źçš„ă€‚ĺ°ç›®ĺ‰Ťä¸şć˘ďĽŚ*Deep*Doc ä¸ćś‰ä¸¤ä¸Şç»„ćé¨ĺ†ďĽšč§†č§‰ĺ¤„ç†ĺ’Śč§Łćžĺ™¨ă€‚ĺ¦‚ćžść‚¨ĺŻąć‘ä»¬çš„OCRă€ĺ¸ĺ±€čŻ†ĺ«ĺ’ŚTSRç»“ćžść„źĺ…´č¶ŁďĽŚć‚¨ĺŹŻä»ĄčżčˇŚä¸‹éť˘çš„ćµ‹čŻ•ç¨‹ĺşŹă€‚
+
+```bash
+python deepdoc/vision/t_ocr.py -h
+usage: t_ocr.py [-h] --inputs INPUTS [--output_dir OUTPUT_DIR]
+
+options:
+  -h, --help            show this help message and exit
+  --inputs INPUTS       Directory where to store images or PDFs, or a file path to a single image or PDF
+  --output_dir OUTPUT_DIR
+                        Directory where to store the output images. Default: './ocr_outputs'
+```
+
+```bash
+python deepdoc/vision/t_recognizer.py -h
+usage: t_recognizer.py [-h] --inputs INPUTS [--output_dir OUTPUT_DIR] [--threshold THRESHOLD] [--mode {layout,tsr}]
+
+options:
+  -h, --help            show this help message and exit
+  --inputs INPUTS       Directory where to store images or PDFs, or a file path to a single image or PDF
+  --output_dir OUTPUT_DIR
+                        Directory where to store the output images. Default: './layouts_outputs'
+  --threshold THRESHOLD
+                        A threshold to filter out detections. Default: 0.5
+  --mode {layout,tsr}   Task mode: layout recognition or table structure recognition
+```
+
+HuggingFaceä¸şć‘ä»¬çš„ć¨ˇĺž‹ćŹäľ›ćśŤĺŠˇă€‚ĺ¦‚ćžśä˝ ĺś¨ä¸‹č˝˝HuggingFaceć¨ˇĺž‹ć—¶é‡ĺ°é—®é˘ďĽŚčż™ĺŹŻč˝äĽšćś‰ć‰€ĺ¸®ĺŠ©ďĽďĽ
+
+```bash
+export HF_ENDPOINT=https://hf-mirror.com
+```
+
+<a name="2"></a>
+## 2. č§†č§‰ĺ¤„ç†
+
+ä˝śä¸şäşşç±»ďĽŚć‘ä»¬ä˝żç”¨č§†č§‰äżˇćŻćťĄč§Łĺ†łé—®é˘ă€‚
+
+  - **OCRďĽOptical Character RecognitionďĽŚĺ…‰ĺ¦ĺ—ç¬¦čŻ†ĺ«ďĽ‰**ă€‚ç”±äşŽč®¸ĺ¤šć–‡ćˇŁé˝ćŻä»Ąĺ›ľĺŹĺ˝˘ĺĽŹĺ‘çŽ°çš„ďĽŚć–č€…č‡łĺ°‘č˝ĺ¤źč˝¬ćŤ˘ä¸şĺ›ľĺŹďĽŚĺ› ć¤OCRćŻć–‡ćś¬ćŹĺŹ–çš„ä¸€ä¸Şéťžĺ¸¸é‡Ťč¦ă€ĺźşćś¬ďĽŚç”šč‡łé€šç”¨çš„č§Łĺ†łć–ąćˇă€‚
+
+    ```bash
+    python deepdoc/vision/t_ocr.py --inputs=path_to_images_or_pdfs --output_dir=path_to_store_result
+    ```
+
+    čľ“ĺ…ĄĺŹŻä»ĄćŻĺ›ľĺŹć–PDFçš„ç›®ĺ˝•ďĽŚć–č€…ĺŤ•ä¸Şĺ›ľĺŹă€PDFć–‡ä»¶ă€‚ć‚¨ĺŹŻä»ĄćźĄçś‹ć–‡ä»¶ĺ¤ą `path_to_store_result` ďĽŚĺ…¶ä¸ćś‰ćĽ”ç¤şç»“ćžśä˝Ťç˝®çš„ĺ›ľĺŹďĽŚä»ĄĺŹŠĺŚ…ĺ«OCRć–‡ćś¬çš„txtć–‡ä»¶ă€‚
+    
+    <div align="center" style="margin-top:20px;margin-bottom:20px;">
+    <img src="https://github.com/infiniflow/ragflow/assets/12318111/f25bee3d-aaf7-4102-baf5-d5208361d110" width="900"/>
+    </div>
+
+  - ĺ¸ĺ±€čŻ†ĺ«ďĽLayout recognitionďĽ‰ă€‚ćťĄč‡Şä¸ŤĺŚé˘†ĺźźçš„ć–‡ä»¶ĺŹŻč˝ćś‰ä¸ŤĺŚçš„ĺ¸ĺ±€ďĽŚĺ¦‚ćŠĄçş¸ă€ćť‚ĺż—ă€äą¦ç±Ťĺ’Śç®€ĺŽ†ĺś¨ĺ¸ĺ±€ć–ąéť˘ćŻä¸ŤĺŚçš„ă€‚ĺŹŞćś‰ĺ˝“ćśşĺ™¨ćś‰ĺ‡†çˇ®çš„ĺ¸ĺ±€ĺ†ćžć—¶ďĽŚĺ®ć‰Ťč˝ĺ†łĺ®ščż™äş›ć–‡ćś¬é¨ĺ†ćŻčżžç»çš„čżćŻä¸Ťčżžç»çš„ďĽŚć–č€…čż™ä¸Şé¨ĺ†éś€č¦čˇ¨ç»“ćž„čŻ†ĺ«ďĽTable Structure RecognitionďĽŚTSRďĽ‰ćťĄĺ¤„ç†ďĽŚć–č€…čż™ä¸Şé¨ä»¶ćŻä¸€ä¸Şĺ›ľĺ˝˘ĺą¶ç”¨čż™ä¸Şć ‡é˘ćťĄćŹŹčż°ă€‚ć‘ä»¬ćś‰10ä¸Şĺźşćś¬ĺ¸ĺ±€ç»„ä»¶ďĽŚć¶µç›–äş†ĺ¤§ĺ¤šć•°ć…ĺ†µďĽš
+      - ć–‡ćś¬
+      - ć ‡é˘
+      - é…Ťĺ›ľ
+      - é…Ťĺ›ľć ‡é˘
+      - čˇ¨ć Ľ
+      - čˇ¨ć Ľć ‡é˘
+      - éˇµĺ¤´
+      - éˇµĺ°ľ
+      - ĺŹ‚č€ĺĽ•ç”¨
+      - ĺ…¬ĺĽŹ
+      
+     čŻ·ĺ°ťčŻ•ä»Ąä¸‹ĺ‘˝ä»¤ä»ĄćźĄçś‹ĺ¸ĺ±€ćŁ€ćµ‹ç»“ćžśă€‚
+
+    ```bash
+    python deepdoc/vision/t_recognizer.py --inputs=path_to_images_or_pdfs --threshold=0.2 --mode=layout --output_dir=path_to_store_result
+    ```
+
+    čľ“ĺ…ĄĺŹŻä»ĄćŻĺ›ľĺŹć–PDFçš„ç›®ĺ˝•ďĽŚć–č€…ĺŤ•ä¸Şĺ›ľĺŹă€PDFć–‡ä»¶ă€‚ć‚¨ĺŹŻä»ĄćźĄçś‹ć–‡ä»¶ĺ¤ą `path_to_store_result` ďĽŚĺ…¶ä¸ćś‰ćľç¤şćŁ€ćµ‹ç»“ćžśçš„ĺ›ľĺŹďĽŚĺ¦‚ä¸‹ć‰€ç¤şďĽš
+    <div align="center" style="margin-top:20px;margin-bottom:20px;">
+    <img src="https://github.com/infiniflow/ragflow/assets/12318111/07e0f625-9b28-43d0-9fbb-5bf586cd286f" width="1000"/>
+    </div>
+  
+  - **TSRďĽTable Structure RecognitionďĽŚčˇ¨ç»“ćž„čŻ†ĺ«ďĽ‰**ă€‚ć•°ćŤ®čˇ¨ćŻä¸€ç§Ťĺ¸¸ç”¨çš„ç»“ćž„ďĽŚç”¨äşŽčˇ¨ç¤şĺŚ…ć‹¬ć•°ĺ—ć–ć–‡ćś¬ĺś¨ĺ†…çš„ć•°ćŤ®ă€‚čˇ¨çš„ç»“ćž„ĺŹŻč˝éťžĺ¸¸ĺ¤Ťćť‚ďĽŚćŻ”ĺ¦‚ĺ±‚ć¬ˇç»“ćž„ć ‡é˘ă€č·¨ĺŤ•ĺ…ć Ľĺ’ŚćŠ•ĺ˝±čˇŚć ‡é˘ă€‚é™¤äş†TSRďĽŚć‘ä»¬čżĺ°†ĺ†…ĺ®ąé‡Ťć–°ç»„ĺćLLMĺŹŻä»ĄĺľĺĄ˝ç†č§Łçš„ĺŹĄĺă€‚TSRä»»ĺŠˇćś‰äş”ä¸Şć ‡çľďĽš
+      - ĺ—
+      - čˇŚ
+      - ĺ—ć ‡é˘
+      - čˇŚć ‡é˘
+      - ĺĺą¶ĺŤ•ĺ…ć Ľ
+      
+    čŻ·ĺ°ťčŻ•ä»Ąä¸‹ĺ‘˝ä»¤ä»ĄćźĄçś‹ĺ¸ĺ±€ćŁ€ćµ‹ç»“ćžśă€‚
+
+    ```bash
+    python deepdoc/vision/t_recognizer.py --inputs=path_to_images_or_pdfs --threshold=0.2 --mode=tsr --output_dir=path_to_store_result
+    ```
+
+    čľ“ĺ…ĄĺŹŻä»ĄćŻĺ›ľĺŹć–PDFçš„ç›®ĺ˝•ďĽŚć–č€…ĺŤ•ä¸Şĺ›ľĺŹă€PDFć–‡ä»¶ă€‚ć‚¨ĺŹŻä»ĄćźĄçś‹ć–‡ä»¶ĺ¤ą `path_to_store_result` ďĽŚĺ…¶ä¸ĺŚ…ĺ«ĺ›ľĺŹĺ’Śhtmléˇµéť˘ďĽŚčż™äş›éˇµéť˘ĺ±•ç¤şäş†ä»Ąä¸‹ćŁ€ćµ‹ç»“ćžśďĽš
+
+    <div align="center" style="margin-top:20px;margin-bottom:20px;">
+    <img src="https://github.com/infiniflow/ragflow/assets/12318111/cb24e81b-f2ba-49f3-ac09-883d75606f4c" width="1000"/>
+    </div>
+        
+<a name="3"></a>
+## 3. č§Łćžĺ™¨
+
+PDFă€DOCXă€EXCELĺ’ŚPPTĺ››ç§Ťć–‡ćˇŁć ĽĺĽŹé˝ćś‰ç›¸ĺş”çš„č§Łćžĺ™¨ă€‚ćś€ĺ¤Ťćť‚çš„ćŻPDFč§Łćžĺ™¨ďĽŚĺ› ä¸şPDFĺ…·ćś‰çµć´»ć€§ă€‚PDFč§Łćžĺ™¨çš„čľ“ĺ‡şĺŚ…ć‹¬ďĽš
+  - ĺś¨PDFä¸ćś‰č‡Şĺ·±ä˝Ťç˝®çš„ć–‡ćś¬ĺť—ďĽéˇµç ĺ’Śçź©ĺ˝˘ä˝Ťç˝®ďĽ‰ă€‚
+  - ĺ¸¦ćś‰PDFčŁĺ‰Şĺ›ľĺŹçš„čˇ¨ć ĽďĽŚä»ĄĺŹŠĺ·˛ç»Źçż»čŻ‘ćč‡Şç„¶čŻč¨€ĺŹĄĺçš„ĺ†…ĺ®ąă€‚
+  - ĺ›ľä¸ĺ¸¦ć ‡é˘ĺ’Ść–‡ĺ—çš„ĺ›ľă€‚
+  
+### ç®€ĺŽ†
+
+ç®€ĺŽ†ćŻä¸€ç§Ťéťžĺ¸¸ĺ¤Ťćť‚çš„ć–‡ä»¶ă€‚ä¸€ä»˝ç”±ĺ„ç§Ťĺ¸ĺ±€çš„éťžç»“ćž„ĺŚ–ć–‡ćś¬ç»„ćçš„ç®€ĺŽ†ĺŹŻä»Ąĺ†č§Łä¸şç”±čż‘ç™ľä¸Şĺ—ć®µç»„ćçš„ç»“ćž„ĺŚ–ć•°ćŤ®ă€‚ć‘ä»¬čżć˛ˇćś‰ć‰“ĺĽ€č§Łćžĺ™¨ďĽŚĺ› ä¸şć‘ä»¬ĺś¨č§Łćžčż‡ç¨‹äą‹ĺŽć‰“ĺĽ€äş†ĺ¤„ç†ć–ąćł•ă€‚
-- 
GitLab