כיצד לתפעל HTML ו- XML קבצים מתוך שורת הפקודה
World Wide Web קונסורציום (W3C) יש מספר כלים חינם זמין כדי לעזור עם הדור הנכון ועיבוד של קבצי HTML ו- XML. HTML-XML החבילה היא קבוצה של כלי עזר פשוטים עבור מניפולציה HTML ו- XML קבצים משורת הפקודה. זה זמין עבור רבים של הפצות לינוקס שונים והוא יכול להיות שימושי עבור אלה שיש להם לעבד HTML או קבצי XML על בסיס קבוע.
כדי להתקין את החבילה על אובונטו, השתמש ב:
sudo apt-get להתקין HTML-XML-utils
יש 31 כלים בחבילה זו, הנה סיכום של מה שהם יכולים לעשות:
- cexport - ליצור headerfile של הצהרות המיוצא מקובץ C
- hxaddid - הוסף מזהה של אלמנטים נבחרים
- hxcite, להחליף הפניות ביבליוגרפיות על ידי היפר
- hxcite-mkbib- להרחיב את הפניות וליצור ביבליוגרפיה
- hxcopy- להעתיק קובץ HTML תוך שמירה על הקישורים היחסיים
- hxcount - לספור אלמנטים ותכונות ב- HTML או קבצי XML
- hxextract - לחלץ אלמנטים שנבחרו
- hxclean - להחיל heuristics כדי לתקן קובץ HTML
- hxprune - להסיר רכיבים מסומנים מקובץ HTML
- hxincl- הרחבה כללה HTML או קבצי XML
- hxindex - ליצור אינדקס ממוינים לפי סדר אלפביתי
- hxmkbib - ליצור ביבליוגרפיה מתוך תבנית
- hxmultitoc - ליצור תוכן עניינים עבור קבוצה של קבצי HTML
- hxname2id - הזז מספר ID = או NAME = מ- A אלמנטים להורים
- hxnormalize - יפה להדפיס קובץ HTML
- hxnum - מספר כותרות של חלקים בקובץ HTML
- hxpipe- להמיר XML לפורמט קל יותר לנתח עם Perl או AWK
- hxprintlinks- מספר קישורים & הוסף טבלה של כתובות אתר בסוף קובץ HTML
- hxremove - להסיר רכיבים נבחרים מקובץ XML
- hxtabletrans- לשנות את HTML או XHTML טבלה
- hxtoc - הכנס תוכן עניינים בקובץ HTML
- hxuncdata - להחליף קטעי CDATA על ידי ישויות אופי
- hxunent - להחליף יישויות HTML מוגדרות מראש ל- UTF-8
- hxunpipe- להמיר פלט של הצינור בחזרה בפורמט XML
- hxunxmlns - להחליף "שמות גלובלי" על ידי קידומת מרחב שמות XML
- hxwls - רשימת קישורים בקובץ HTML
- hxxmlns - להחליף תחיליות מרחב שמות XML לפי "שמות גלובליים"
- asc2xml, xml2asc- להמיר בין UTF8 לבין ישויות
- hxref - ליצור הפניות מקושרות
- hxselect- לחלץ אלמנטים התואמים בורר (CSS)
כדי להציג לך את העוצמה של כלי זה להגדיר, הנה כמה דוגמאות על איך היית משתמש כמה פקודות.
את הפקודה " hxnormalize
" יהיה לאתחל קובץ HTML, כך קל לקרוא מעוצב יפה. כדי לבדוק את הפקודה, אנו ניצור HTML מכוער. בחר והעתק את השורות הבאות והדבק אותן ישירות בחלון מסוף.
cat> test.html << __EOF__שלום __EOF__
פעולה זו תיצור קובץ בשם test.html. HTML חסר כמה תגי הסיום והוא כתוב בשורה אחת. הפקודה hxnormalize
יהיה לאתחל את הקובץ ולכתוב את הגרסה יפה הפלט הסטנדרטי (stdout). כך תפעיל את הפקודה:
hxnormalize -e test.html
הדגל "-e" אומר hxnormalize להוסיף תגי סגירה חסרים.
ניתן גם להפעיל את הפקודה נגד דף אינטרנט על ידי החלפת "test.html" עם כתובת אתר, לדוגמה:
hxnormalize http://www.example.com
הפקודה hxwls
קובץ HTML מקומי או אתר אינטרנט, hxwls
את הקישורים בתוך HTML. לדוגמה:
hxwls http://www.example.com
הנה את השורות הראשונות של הפלט עבור להפוך את אתר האינטרנט טק קל יותר:
הפקודה hxtabletrans
משנה את הטבלה כך ששורות הופכות לעמודות ועמודות הופכות לשורות.
בואו ליצור קובץ HTML עם טבלה פשוטה. בחר והעתק את השורות הבאות ולאחר מכן הדבק אותן ישירות בחלון מסוף.
cat> table.html << __EOF__
ג'יל | נַפָּח | 50 |
עֶרֶב | ג'קסון | 94 |
התוצאה היא קובץ בשם table.html. בדפדפן אינטרנט השולחן ייראה כך:
ג'יל | נַפָּח | 50 |
עֶרֶב | ג'קסון | 94 |
אם אתה מפעיל את הפקודה hxtabletrans
, אז זה יכתוב את השולחן transposed לפלט הסטנדרטי. ניתן להפנות את התוצאות לקובץ אחר כך:
hxtabletrans table.html> table2.html
הקובץ החדש, table2.html, יציג את ג'יל סמית 'ואת איב ג'קסון בעמודות, ולא בשורות כמו במקור. הטבלה המתקבלת תהיה משהו כזה:
ג'יל | עֶרֶב |
נַפָּח | ג'קסון |
50 | 94 |
רוב הפקודות משמשות בדרך דומה לדוגמאות לעיל, כלומר עליך לציין קובץ או כתובת אתר כדי לעבד את הפלט נכתב stdout. נסה להתנסות עם הפקודות השונות כפי שאתה עשוי למצוא אותם שימושי.
אם יש לך שאלות על כלי HTML-XML אז אתה מוזמן לשאול אותם את ההערות להלן ואנו נראה אם אנחנו יכולים לעזור.