למרות שאנו כבר יודעים כיצד לערוך קבצי PDF קיימים באובונטו, יש פעמים שבהן הדרישה היא להשתמש בכל התמונות או בחלק מהן הכלולות בקובץ PDF. ידנית הדבקת הדבק היא בהחלט אפשרות, אבל זה לא זמן שמירת אחד, במיוחד כאשר קובץ PDF מכיל מספר רב של תמונות.

כלי קיים, המכונה PDFImages, שהופך את התמונה מיצוי מתוך קבצי PDF cakewalk. במאמר זה נדון בכלי זה באמצעות דוגמאות קלות להבנה. שים לב כי כל הדוגמאות המשמשות את המאמר נבדקות על Ubuntu 14.04 LTS באמצעות גירסה 0.24.5 של הכלי.

מה זה PDFImages?

כפי שכבר דנו, PDFImages הוא כלי שורת הפקודה שניתן להשתמש בו כדי לחלץ תמונות מקובץ PDF. דף האיש של הכלי אומר שהוא קורא את קובץ ה- PDF של הקלט, סורק אותו ומייצר קובץ נייד אחד של Pixmap (PPM), Portable Pixmap (PBM) או JPEG עבור כל תמונה שהיא פוגשת בקובץ ה- PDF.

הורד והתקן

אם הכלי אינו מותקן כבר בתיבה אובונטו, באפשרותך להוריד ולהתקין אותו באמצעות הפקודה הבאה:

 sudo apt- לקבל להתקין poppler-utils 

בנוסף PDFImages, החבילה "poppler-utils" מכיל גם כמה כלי שורת הפקודה אחרים לקבלת מידע ממסמכי PDF, המרת אותם פורמטים אחרים, או מניפולציה אותם.

נוֹהָג

שורת הפקודה כלי PDFImages, בצורתו הבסיסית ביותר, דורש שני טיעונים: קלט קובץ PDF ואת הנתיב לספרייה שבה אתה רוצה את הכלי כדי לשמור את התמונות. לדוגמה, במקרה שלי ניסיתי לחלץ תמונות מתוך קובץ PDF בשם "christmas_story.pdf" ושמירת אותם לספרייה בשם "pdfimages".

 pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / heanshu / הורדות / pdfimages / 

הפקודה הנ"ל הפיקה את הקבצים הבאים בספריית היעד:

 ls / home / himanshu / הורדות / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm -004.ppm -005.ppm -006.ppm -007.ppm 

כפי שניתן לראות בפלט לעיל, שם הקבצים מתחיל במקף (-) ולאחר מכן במספר. עבור אלה תוהה למה השם מתחיל עם מקף, הכלי נותן לך את הגמישות כדי קידומת כל מילה לפני המקף, כך שתוכל ליצור שמות מותאמים אישית עבור תמונות הפלט. באפשרותך לעשות זאת על-ידי הוספת מילה מסוימת זו לנתיב של ספריית היעד בעת הפעלת הפקודה.

לדוגמה, הוספתי את המילה "תמונה" לנתיב של ספריית היעד:

 pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / heanshu / הורדות / pdfimages / image 

ואת קבצי הפלט המיוצרים במקרה זה נשא את השם הבא:

 ls / home / heanshu / הורדות / pdfimages / image-000.ppm image-001.ppm image-002.ppm image-003.ppm image-004.ppm image-005.ppm image-006.ppm image-007.ppm 

ראוי להזכיר כי בניגוד לדף של האיש אומר הכלי, שתי תמונות מיוצרים עבור כל תמונה בקובץ PDF אשר אחד ריק בעוד השני הוא שמיש. במקרה שלי, התמונות המוזרות היו ריקות:

על מנת להמשיך, אתה יכול גם לשנות את פורמט קובץ הפלט קובץ מ "ppm" ל "jpeg, " שבו אתה יכול לעשות באמצעות האפשרות -j . זכור, עם זאת, עם אפשרות זו, רק תמונות בפורמט DCT נשמרים כמו קבצי JPEG - כל התמונות שאינם DCT נשמרים בפורמט PBM / PPM כרגיל.

תוכל גם לציין אילו דפים ברצונך לסרוק את הכלי. בדרך זו תקבל רק את התמונות האלה בפלט אשר נמצאים על דפים אלה. כדי להפעיל אפשרות זו, עליך להשתמש באפשרות -f (ואחריה מספר העמוד) ו- -l (ואחריו מספר העמוד) כדי לציין דפי התחלה וסיום בהתאמה.

לדוגמה, רציתי את הכלי רק לחלץ תמונות הנוכחי בדף הראשון של קובץ PDF, אז השתמשתי את הפקודה הבאה:

 pdfimages -f 1 -l 1 / home / himanshu / הורדות / הורדות / 

ובספריית היעד, רק שתי תמונות (סה"כ 4 כולל אלה ריקים) הופקו:

 ls / home / himanshu / הורדות / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm 

סיכום

PDFImages הוא בהחלט כלי שימושי אם העבודה שלך כרוך בהתמודדות עם קבצי PDF ואת התמונות שהם מכילים, וכפי שאתה יכול לראות עד עכשיו, זה קל ללמוד, כמו גם פשוט לשימוש. כדי ללמוד עוד על הכלי, פנה אל דף האיש שלו.