World Wide Web קונסורציום (W3C) יש מספר כלים חינם זמין כדי לעזור עם הדור הנכון ועיבוד של קבצי HTML ו- XML. HTML-XML החבילה היא קבוצה של כלי עזר פשוטים עבור מניפולציה HTML ו- XML ​​קבצים משורת הפקודה. זה זמין עבור רבים של הפצות לינוקס שונים והוא יכול להיות שימושי עבור אלה שיש להם לעבד HTML או קבצי XML על בסיס קבוע.

כדי להתקין את החבילה על אובונטו, השתמש ב:

 sudo apt-get להתקין HTML-XML-utils 

יש 31 כלים בחבילה זו, הנה סיכום של מה שהם יכולים לעשות:

  • cexport - ליצור headerfile של הצהרות המיוצא מקובץ C
  • hxaddid - הוסף מזהה של אלמנטים נבחרים
  • hxcite, להחליף הפניות ביבליוגרפיות על ידי היפר
  • hxcite-mkbib- להרחיב את הפניות וליצור ביבליוגרפיה
  • hxcopy- להעתיק קובץ HTML תוך שמירה על הקישורים היחסיים
  • hxcount - לספור אלמנטים ותכונות ב- HTML או קבצי XML
  • hxextract - לחלץ אלמנטים שנבחרו
  • hxclean - להחיל heuristics כדי לתקן קובץ HTML
  • hxprune - להסיר רכיבים מסומנים מקובץ HTML
  • hxincl- הרחבה כללה HTML או קבצי XML
  • hxindex - ליצור אינדקס ממוינים לפי סדר אלפביתי
  • hxmkbib - ליצור ביבליוגרפיה מתוך תבנית
  • hxmultitoc - ליצור תוכן עניינים עבור קבוצה של קבצי HTML
  • hxname2id - הזז מספר ID = או NAME = מ- A אלמנטים להורים
  • hxnormalize - יפה להדפיס קובץ HTML
  • hxnum - מספר כותרות של חלקים בקובץ HTML
  • hxpipe- להמיר XML לפורמט קל יותר לנתח עם Perl או AWK
  • hxprintlinks- מספר קישורים & הוסף טבלה של כתובות אתר בסוף קובץ HTML
  • hxremove - להסיר רכיבים נבחרים מקובץ XML
  • hxtabletrans- לשנות את HTML או XHTML טבלה
  • hxtoc - הכנס תוכן עניינים בקובץ HTML
  • hxuncdata - להחליף קטעי CDATA על ידי ישויות אופי
  • hxunent - להחליף יישויות HTML מוגדרות מראש ל- UTF-8
  • hxunpipe- להמיר פלט של הצינור בחזרה בפורמט XML
  • hxunxmlns - להחליף "שמות גלובלי" על ידי קידומת מרחב שמות XML
  • hxwls - רשימת קישורים בקובץ HTML
  • hxxmlns - להחליף תחיליות מרחב שמות XML לפי "שמות גלובליים"
  • asc2xml, xml2asc- להמיר בין UTF8 לבין ישויות
  • hxref - ליצור הפניות מקושרות
  • hxselect- לחלץ אלמנטים התואמים בורר (CSS)

כדי להציג לך את העוצמה של כלי זה להגדיר, הנה כמה דוגמאות על איך היית משתמש כמה פקודות.

את הפקודה " hxnormalize " יהיה לאתחל קובץ HTML, כך קל לקרוא מעוצב יפה. כדי לבדוק את הפקודה, אנו ניצור HTML מכוער. בחר והעתק את השורות הבאות והדבק אותן ישירות בחלון מסוף.

 cat> test.html << __EOF__ 

שלום __EOF__

פעולה זו תיצור קובץ בשם test.html. HTML חסר כמה תגי הסיום והוא כתוב בשורה אחת. הפקודה hxnormalize יהיה לאתחל את הקובץ ולכתוב את הגרסה יפה הפלט הסטנדרטי (stdout). כך תפעיל את הפקודה:

 hxnormalize -e test.html 

הדגל "-e" אומר hxnormalize להוסיף תגי סגירה חסרים.

ניתן גם להפעיל את הפקודה נגד דף אינטרנט על ידי החלפת "test.html" עם כתובת אתר, לדוגמה:

 hxnormalize http://www.example.com 

הפקודה hxwls קובץ HTML מקומי או אתר אינטרנט, hxwls את הקישורים בתוך HTML. לדוגמה:

 hxwls http://www.example.com 

הנה את השורות הראשונות של הפלט עבור להפוך את אתר האינטרנט טק קל יותר:

הפקודה hxtabletrans משנה את הטבלה כך ששורות הופכות לעמודות ועמודות הופכות לשורות.

בואו ליצור קובץ HTML עם טבלה פשוטה. בחר והעתק את השורות הבאות ולאחר מכן הדבק אותן ישירות בחלון מסוף.

 cat> table.html << __EOF__ 
ג'ילנַפָּח50
עֶרֶבג'קסון94
__EOF__

התוצאה היא קובץ בשם table.html. בדפדפן אינטרנט השולחן ייראה כך:

ג'ילנַפָּח50
עֶרֶבג'קסון94

אם אתה מפעיל את הפקודה hxtabletrans, אז זה יכתוב את השולחן transposed לפלט הסטנדרטי. ניתן להפנות את התוצאות לקובץ אחר כך:

 hxtabletrans table.html> table2.html 

הקובץ החדש, table2.html, יציג את ג'יל סמית 'ואת איב ג'קסון בעמודות, ולא בשורות כמו במקור. הטבלה המתקבלת תהיה משהו כזה:

ג'ילעֶרֶב
נַפָּחג'קסון
5094

רוב הפקודות משמשות בדרך דומה לדוגמאות לעיל, כלומר עליך לציין קובץ או כתובת אתר כדי לעבד את הפלט נכתב stdout. נסה להתנסות עם הפקודות השונות כפי שאתה עשוי למצוא אותם שימושי.

אם יש לך שאלות על כלי HTML-XML אז אתה מוזמן לשאול אותם את ההערות להלן ואנו נראה אם ​​אנחנו יכולים לעזור.