Trích xuất một phần dữ liệu từ PDF sang Excel Tainghetrothinh

Có rất nhiều Phương pháp chuyển đổi toàn bộ tập tin PDF thành tài liệu Excel, nhưng việc chỉ trích xuất một phần dữ liệu sẽ khó hơn. Mặc dù vậy, vẫn có một vài cách giúp bạn thực hiện việc này, bao gồm sao chép và dán dữ liệu theo cách thủ công, dùng công cụ trực tuyến miễn phí – Docparser, và dùng công cụ trả phí như Adobe Acrobat Pro DC. Đây là bài đăng chỉ dẫn Phương pháp trích xuất một phần dữ liệu từ PDF sang Excel.

những bước

Phương pháp số 1 Thực hiện thao tác sao chép và dán

1Mở tập tin PDF trong chương trình đọc PDF. Thao tác nhấp đúp vào tập tin PDF sẽ mở tập tin trong chương trình đọc PDF mặc định như Preview trên macOS hoặc Edge trên Windows. 2Chọn dữ liệu mà bạn muốn trích xuất từ PDF. Bạn có thể chọn dữ liệu bằng cách nhấp và kéo từ phía trên góc trái phần đó đến phía dưới góc phải. Bây giờ phần dữ liệu đã được tô sáng. 3Sao chép dữ liệu vào bộ nhớ tạm. Nhấp phải vào phần được tô sáng và chọn Copy (Sao chép). Hoặc, bạn có thể sao chép dữ liệu bằng cách ấn Command + C trên Mac hay Control + C trên Windows.4Mở tài liệu Excel và chọn ô. Tương tự như thao tác trước đó, để chọn nhanh nhiều ô, bạn sẽ nhấp và kéo chuột từ ô ở phía trên góc trái đến ô ở bên dưới góc phải. Đảm bảo chọn đủ ô cho dữ liệu cần trích xuất. Nếu không, bạn chỉ có thể dán một phần dữ liệu.5Dán dữ liệu vào tài liệu Excel. Nhấp phải vào một trong những ô đã chọn và chọn Paste (Dán). Mặc dù bạn sẽ phải thực hiện thao tác định dạng dữ liệu, nhưng tập tin Excel đã có dữ liệu từ PDF! Nếu thao tác dán cả nhóm dữ liệu không hiệu quả, bạn có thể thử sao chép và dán từng dòng dữ liệu vào từng ô theo ý muốn.Bạn cũng có thể dán dữ liệu bằng cách ấn Command + V trên Mac hoặc Control + V trên Windows

Phương pháp số 2 dùng Docparser

1Đăng ký tài khoản tại https://app.docparser.com/account/signup. Docparser cung cấp những gói dịch vụ với mức phí khác nhau, bao gồm gói miễn phí cho phép bạn trích xuất 30 tài liệu mỗi tháng. Bạn có thể chọn đăng ký bằng tài khoản Google hay Microsoft hoặc tạo tài khoản Docparser.2Nhấp vào Create Document Parser (Tạo phần trích xuất). Đây là nút màu xanh dương ở giữa phần dưới màn hình. 3Nhập tên và chọn mẫu. Nếu văn bản mà bạn muốn trích xuất không phù hợp với một trong những mẫu có sẵn, hãy chọn Custom (Tùy chỉnh) ở giữa dòng đầu tiên. những mẫu của Docparser đều được thiết lập sẵn những nguyên tắc dành riêng cho loại văn bản đó, còn việc tạo mẫu tùy chỉnh đòi hỏi bạn thiết lập nguyên tắc của riêng bạn.4Tải lên PDF và nhấp vào Continue (Tiếp tục). Bạn có thể chọn kéo và thả tập tin PDF vào trang web hoặc nhấp vào ô tải lên, rồi chọn tập tin trên máy tính. Sau khi bạn tải lên tập tin PDF, hãy nhấp vào nút màu xanh lá ở phía trên góc phải màn hình. Nếu bạn muốn chuyển đổi nhiều tập tin PDF có cùng nguyên tắc, hãy tiếp tục tải lên những tập tin đó.5Xem hoặc bỏ qua video giới thiệu những nguyên tắc trích xuất. Nguyên tắc trích xuất cho phép bạn chọn phương pháp đọc và chuyển đổi tập tin PDF. Nếu bạn không muốn xem video chỉ dẫn, hãy nhấp vào “X” ở phía trên góc phải cửa sổ đang hiển thị. Video chỉ dài khoảng 1 phút 30 giây, tốt hơn hết bạn nên xem để biết cách tùy chỉnh việc trích xuất dữ liệu từ PDF.6Thực hiện theo chỉ dẫn hiển thị trên màn hình. Trước tiên, Docparser yêu cầu bạn chọn bộ nguyên tắc Text Variable Position, rồi đặt tên cho quy định. Chương trình sẽ hiển thị thêm thông tin về phần dữ liệu được trích xuất, vị trí thêm bộ lọc và lọc dữ liệu, Phương pháp xem trước dữ liệu đã lọc. 7Thêm bộ lọc văn bản và điều chỉnh từng bộ lọc và bằng cách dùng những ô “Filtered Result” (Kết quả đã lọc) ở bên dưới. Mỗi ô đều có một khung lựa chọn để điều chỉnh bộ lọc liên quan và xem trước dữ liệu. Để chọn một phần dữ liệu, bạn sẽ nhấp vào Add Text Filter (Thêm bộ lọc văn bản), di chuyển con trỏ đến Crop From Start & End (Cắt từ điểm đầu đến điểm cuối), rồi thiết lập điểm đầu và điểm cuối cho phần dữ liệu cần trích xuất.8Nhấp vào Save Parsing Rule (Nguyên tắc trích xuất). Đây là nút màu xanh lá ở bên dưới góc phải màn hình và có biểu tượng dấu chọn nhỏ màu trắng. 9Tạo nguyên tắc trích xuất khác hoặc thoát công cụ chỉnh sửa. Sau khi hoàn tất việc tạo nguyên tắc, bạn chỉ cần nhấp vào nút Leave Parsing Editor (Thoát công cụ chỉnh sửa trích xuất) màu xám. Nếu không, bạn sẽ nhấp vào nút Create Another Parsing Rule (Tạo nguyên tắc trích xuất khác) màu xanh dương và tiếp tục tạo nguyên tắc, rồi thoát công cụ chỉnh sửa và chuyển sang bước tiếp theo. 10Nhấp vào ô chọn bên cạnh tên văn bản. Dấu chọn màu đen liền hiển thị. 11Chọn Move To Parse Queue (Chuyển sang nhóm chờ trích xuất) từ trình đơn Perform Action (Thực hiện thao tác). Trình đơn này hiển thị phía trên góc trái màn hình, ngay phía trên tên văn bản. 12Nhấp vào Ok, chờ một phút và làm mới trang. Nếu bạn không thấy văn bản, có lẽ văn bản đang được trích xuất. Hãy chờ thêm một phút và chuyển đổi giữa những thẻ trong công cụ trích xuất văn bản. 13Nhấp vào tên tập tin. Đây là nút ở bên trái trang và có mũi tên hướng xuống. 14Nhấp vào Excel Download (Tải về Excel). Bây giờ bạn đã có tài liệu Excel với phần dữ liệu được chọn từ PDF! Bạn cần cho phép tải về trên trang đó trước khi tải tập tin

Phương pháp số 3 dùng Adobe Acrobat Pro DC

1Mở tập tin PDF cần dùng bằng Acrobat. Nếu Acrobat không phải là chương trình đọc PDF mặc định, bạn có thể mở bằng cách nhấp phải vào tập tin, rồi chọn Acrobat từ trình đơn Open With (Mở bằng). Có thể bạn phải tìm kiếm Acrobat trong trình đơn Open With bằng cách nhấp vào Other… trên Mac hoặc Choose another app (Chọn ứng dụng khác) trên Windows.2Chọn dữ liệu mà bạn muốn trích xuất.
Bạn có thể chọn dữ liệu bằng cách nhấp và kéo từ phía trên góc trái phần dữ liệu đến phía dưới góc phải. Bây giờ phần dữ liệu đã được tô sáng. 3Nhấp phải vào phần dữ liệu đã chọn và chọn Export Selection As… (Xuất phần đã chọn dưới dạng…). Màn hình liền hiển thị cửa sổ mới với những lựa chọn trích xuất dữ liệu đã chọn trên PDF.4Chọn định dạng XLSX trong danh sách Save As Type (Lưu dưới dạng) và nhấp vào Save (Lưu). Bây giờ bạn đã có bảng tính Excel với một phần dữ liệu được trích xuất từ PDF!