Scripting: что проще всего извлечь значение в теге XML-файла?

Я хочу прочитать pom.xml («Объектная модель проекта» Maven) и извлечь информацию о версии. Вот пример:

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.mycompany</groupId> <artifactId>project-parent</artifactId> <name>project-parent</name> <version>1.0.74-SNAPSHOT</version> <dependencies> <dependency> <groupId>com.sybase.jconnect</groupId> <artifactId>jconnect</artifactId> <version>6.05-26023</version> </dependency> <dependency> <groupId>joda-time</groupId> <artifactId>joda-time</artifactId> <version>1.5.2</version> </dependency> <dependency> <groupId>com.sun.jdmk</groupId> <artifactId>jmxtools</artifactId> <version>1.2.1</version> </dependency> <dependency> <groupId>org.easymock</groupId> <artifactId>easymock</artifactId> <version>2.4</version> </dependency> </dependencies> </project> 

Как я могу извлечь версию «1.0.74-SNAPSHOT» сверху?

Хотелось бы иметь возможность сделать это, используя простые скрипты bash sed или awk. В противном случае предпочтительным является простой python.

РЕДАКТИРОВАТЬ

  1. скованность

    Ящик Linux находится в корпоративной среде, поэтому я могу использовать только те инструменты, которые уже установлены (не то, что я не могу запросить такую ​​утилиту, как xml2, но мне нужно пройти через много лент). Некоторые из решений очень хороши (узнайте еще несколько новых трюков), но они могут быть неприменимы из-за ограниченной среды

  2. Обновленный список xml

    Я добавил тег зависимостей в исходный список. Это покажет, что какое-то хакерское решение может не работать в этом случае

  3. Distro

    Я использую дистрибутив RHEL4

  • LaTeX, HTML / CSS / XML или что-то еще, чтобы создать резюме?
  • Пакетный файл Windows или скрипт для загрузки экспортированных профилей XML Wi-Fi на новый ноутбук
  • Извлечь ссылки из файла Sitemap (xml)
  • Как сохранить вывод верхней команды в формате XML?
  • Отображение XML в браузере Chrome
  • Как десериализовать XML-документ
  • Notepad ++ не запускается (notepad ++. Exe присутствует в диспетчере задач)
  • Разнообразный формат XML diff
  • 13 Solutions collect form web for “Scripting: что проще всего извлечь значение в теге XML-файла?”

    Xml2 может конвертировать xml в / из линейно-ориентированного формата:

     xml2 < pom.xml | grep /project/version= | sed 's/.*=//' 

    Другой способ: xmlgrep и XPath:

     xmlgrep --text_only '/project/version' pom.xml 

    Недостаток: медленный

    Clojure путь. Требуется только jvm со специальным файлом jar:

     java -cp clojure.jar clojure.main -e "(use 'clojure.xml) (->> (java.io.File. \"pom.xml\") (clojure.xml/parse) (:content) (filter #(= (:tag %) :version)) (first) (:content) (first) (println))" 

    Скала:

     java -Xbootclasspath/a:scala-library.jar -cp scala-compiler.jar scala.tools.nsc.MainGenericRunner -e 'import scala.xml._; println((XML.load(new java.io.FileInputStream("pom.xml")) match { case <project>{children @ _*}</project> => for (i <- children if (i match { case <version>{children @ _*}</version> => true; case _ => false; })) yield i })(0) match { case <version>{Text(x)}</version> => x })' 

    Гровой путь:

     java -classpath groovy-all.jar groovy.ui.GroovyMain -e 'println (new XmlParser().parse(new File("pom.xml")).value().findAll({ it.name().getLocalPart()=="version" }).first().value().first())' 

    Вот альтернатива в Perl

     $ perl -MXML::Simple -e'print XMLin("pom.xml")->{version}."\n"' 1.0.74-SNAPSHOT 

    Он работает с пересмотренным / расширенным примером в вопросах, которые имеют несколько элементов «версии» на разных глубинах.

    Хакерно :

     perl -e '$_ = join "", <>; m!<project[^>]*>.*\n(?: |\t)<version[^>]*>\s*([^<]+?)\s*</version>.*</project>!s and print "$1\n"' pom.xml 

    Опирается на правильный отступ требуемой <version>

    Использование python

     $ python -c 'from xml.etree.ElementTree import ElementTree; print ElementTree(file="pom.xml").findtext("{http://maven.apache.org/POM/4.0.0}version")' 1.0.74-SNAPSHOT 

    Использование xmlstarlet

     $ xml sel -N x="http://maven.apache.org/POM/4.0.0" -t -m 'x:project/x:version' -v . pom.xml 1.0.74-SNAPSHOT 

    Использование xmllint

     $ echo -e 'setns x=http://maven.apache.org/POM/4.0.0\ncat /x:project/x:version/text()' | xmllint --shell pom.xml | grep -v / 1.0.74-SNAPSHOT 

    Разработайте очень неуклюжий, однострочный раствор

     python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [n for n in dom.getElementsByTagName('version') if n.parentNode == dom.childNodes[0]][0].toxml()" | sed -e "s/.*>\(.*\)<.*/\1/g" 

    Сед в конце очень уродливый, но я не смог распечатать текст узла только с мыском.

    Обновление от _Vi :

    Меньшая хакерская версия Python:

     python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [i.childNodes.item(0).nodeValue for i in dom.firstChild.childNodes if i.nodeName == 'version'].pop()" 

    Обновление от меня

    Другая версия:

      python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [n.firstChild.data for n in dom.childNodes[0].childNodes if n.firstChild and n.tagName == 'version']" 

    Способ XSLT:

     <?xml version="1.0" encoding="ISO-8859-1"?> <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <xsl:output method="text"/> <xsl:template match="/"> <xsl:for-each select="*[local-name()='project']"> <xsl:for-each select="*[local-name()='version']"> <xsl:value-of select="text()"/> </xsl:for-each> </xsl:for-each> </xsl:template> </xsl:stylesheet> 
     xalan -xsl x.xsl -in pom.xml 

    Если «в xml есть много тега версии», то вам лучше забыть об этом с помощью «простых инструментов» и регулярных выражений, чего не будет.

    Попробуйте этот питон (без зависимостей):

     from xml.dom.minidom import parse dom = parse('pom.xml') project = dom.getElementsByTagName('project')[0] for node in project.childNodes: if node.nodeType == node.ELEMENT_NODE and node.tagName == 'version': print node.firstChild.nodeValue 

    Вот один лайнер с использованием sed:

     sed '/<dependencies>/,/<\/dependencies>/d;/<version>/!d;s/ *<\/\?version> *//g' pom.xml 
     Return_text_val=$(xmllint --xpath "//*[local-name()='$TagElmnt']" $FILE ) 

    Здесь попробуйте следующее:

     $TagElmnt - TagName $FILE - xml file to parse 
     sed -n "/<name>project-parent/{n;s/.*>\(.*\)<.*/\1/p;q}" pom.xml 

    Опция -n позволяет избежать печати несогласованных строк; Первое совпадение ( /.../ ) находится на линии перед текстом с нужным текстом; Команда n переходит к следующей строке, где s извлекает соответствующую информацию через группу захвата ( \(...\) ) и обратную ссылку ( \1 ). p выдает, q завершает работу.

    Я знаю, что ваш вопрос говорит Linux, но если вам нужно сделать это на Windows без необходимости каких-либо сторонних инструментов, которые вы можете поместить в пакетный файл, Powershell может извлечь любой узел из вашего файла pom.xml, например, так :

     powershell -Command "& {select-xml //pom:project/pom:properties/pom:mypluginversion -path pom.xml -Namespace @{pom='http://maven.apache.org/POM/4.0.0'} | foreach {$_.Node.Innerxml}}" > myPluginVersion.txt 
    Interesting Posts
    Давайте будем гением компьютера.