Wie erhalte ich Seitenquellen in Selenium mit Python?

Das Abrufen der Seitenquelle einer zu prüfenden Website ist für die meisten Testautomatisierungsingenieure eine tägliche Aufgabe. Die Analyse der Seitenquelle hilft bei der Beseitigung von Fehlern, die bei regelmäßigen Website-UI-Tests, Funktionstests oder Sicherheitstests festgestellt wurden. In einem äußerst komplexen Anwendungstestprozess können Automatisierungstestskripte so geschrieben werden, dass Fehler im Programm automatisch erkannt werden.

  • speichert den Quellcode dieser bestimmten Seite.
  • benachrichtigt die für die URL der Seite verantwortliche Person.
  • extrahiert die HTML-Quelle eines bestimmten Elements oder Codeblocks und delegiert sie an die zuständigen Behörden, wenn der Fehler in einem bestimmten unabhängigen HTML-WebElement oder Codeblock aufgetreten ist.

Dies ist eine einfache Möglichkeit, logische und syntaktische Fehler im Front-End-Code aufzuspüren und zu beheben. In diesem Artikel verstehen wir zunächst die beteiligten Terminologien und untersuchen dann, wie Sie die Seitenquelle in Selenium WebDriver mit Python abrufen.

Was ist eine HTML-Seitenquelle?

In nicht-technischer Terminologie handelt es sich um eine Reihe von Anweisungen für Browser, um Informationen auf ästhetische Weise auf dem Bildschirm anzuzeigen. Browser interpretieren diese Anweisungen auf ihre eigene Weise, um Browserbildschirme für die Clientseite zu erstellen. Diese werden normalerweise mit HyperText Markup Language (HTML), Cascading Style Sheets (CSS) und Javascript geschrieben.

Dieser gesamte Satz von HTML-Anweisungen, die eine Webseite erstellen, wird als Seitenquelle oder HTML-Quelle oder einfach als Quellcode bezeichnet. Website-Quellcode ist eine Sammlung von Quellcodes einzelner Webseiten.

Hier ist ein Beispiel für einen Quellcode für eine grundlegende Seite mit einem Titel, einem Formular, einem Bild und einem Senden-Button.

<!DOCTYPE html>
<html>
<head>
  <title>Page Source Example - LambdaTest</title>
</head>
<body>
 
<h2>Debug selenium testing results : LambdaTest</h2>

<img src=" alt="debug selenium testing" width="550" height="500"><br><br>
<form action="/">
  <label for="debug">Do you debug test results using LambdaTest?</label><br>
  <input type="text" id="debug" name="debug" value="Of-course!"><br>
<br>
  <input type="submit" value="Submit">
</form> <br><br>
<button type="button" onclick="alert('Page Source Example : LambdaTest!')">Click Me!</button>
</body>
</html>

Was ist ein HTML-Webelement?

Der einfachste Weg, ein HTML-Webelement zu beschreiben, wäre: „Jedes HTML-Tag, das den Quellcode der HTML-Seite darstellt, ist ein Webelement.“ Es könnte ein HTML-Codeblock, ein unabhängiges HTML-Tag wie
, ein Medienobjekt auf der Webseite sein – Bild, Audio, Video, eine JS-Funktion oder sogar ein JSON-Objekt, das in -Tags eingeschlossen ist .

Im obigen Beispiel ist ein HTML-Webelement, also auch</p><p>und die Kinder von Body-Tags sind ebenfalls HTML-Webelemente, dh <img>, <button> usw.</p><h2 id="how-to-get-page-source-in-selenium-webdriver-using-python"> Wie erhalte ich Seitenquellen in Selenium WebDriver mit Python?</h2><p><a rel="nofollow noopener" target="_blank" href="https://www.lambdatest.com/blog/selenium-webdriver-tutorial-with-examples/?utm_source=Codementor&utm_medium=Blog&utm_campaign=Nishant-2032021&utm_term=Nishant">Selenium WebDriver</a> ist ein robustes Automatisierungstesttool und bietet Automatisierungstestingenieuren einen vielfältigen Satz gebrauchsfertiger APIs. Und damit Selenium WebDriver die Seitenquelle erhält, stellen uns Selenium-Python-Bindungen eine Treiberfunktion namens page_source zur Verfügung, um die HTML-Quelle der derzeit aktiven URL im Browser abzurufen.</p><p>Alternativ können wir auch die „GET“-Funktion der Request-Bibliothek von Python verwenden, um den Seitenquelltext zu laden. Eine andere Möglichkeit besteht darin, Javascript mithilfe der Treiberfunktion execute_script auszuführen und Selenium WebDriver zum Abrufen der Seitenquelle in Python zu veranlassen. Eine nicht empfohlene Methode zum Abrufen der Seitenquelle ist die Verwendung von XPath zusammen mit der URL „view-source:“. Lassen Sie uns Beispiele für diese vier Möglichkeiten zum Abrufen von Seitenquellen in Selenium WebDriver mit Python untersuchen –</p><p>Wir werden eine Probe klein verwenden <a rel="nofollow noopener" target="_blank" noopener>Website</a> für alle vier Beispiele auf GitHub gehostet. Diese Seite wurde zu Demonstrationszwecken erstellt <a rel="nofollow noopener" target="_blank" href="https://www.lambdatest.com/blog/drag-and-drop-in-selenium-python/?utm_source=Codementor&utm_medium=Blog&utm_campaign=Nishant-2032021&utm_term=Nishant">Drag-and-Drop-Tests</a> in Selenium Python mit LambdaTest.</p><h3 id="get-html-page-source-using-driverpage-source"> Holen Sie sich die Quelle der HTML-Seite mit driver.page_source</h3><p>Wir rufen „pynishant.github.io“ im ChromeDriver ab und speichern seinen Inhalt in einer Datei namens „page_source.html“. Dieser Dateiname kann beliebig sein. Als nächstes lesen wir den Inhalt der Datei und drucken ihn auf dem Terminal aus, bevor wir den Treiber schließen.</p><pre><code>from selenium import webdriver driver = webdriver.Chrome() driver.maximize_window() driver.get(" pageSource = driver.page_source fileToWrite = open("page_source.html", "w") fileToWrite.write(pageSource) fileToWrite.close() fileToRead = open("page_source.html", "r") print(fileToRead.read()) fileToRead.close() driver.quit() </code></pre><p>Bei erfolgreicher Ausführung des obigen Skripts zeigt Ihre Terminalausgabe die folgende Seitenquelle an.</p><p><img data-lazyloaded="1" src="" width="1024" height="576" decoding="async" class="b-lazy" data-src="https://www.lambdatest.com/blog/wp-content/uploads/2021/01/image5-1-1024x576.png" alt=""/></p><h3 id="get-html-page-source-using-driverexecute-javascript"> Holen Sie sich die HTML-Seitenquelle mit driver.execute_javascript</h3><p>Im vorherigen Beispiel müssen wir die Zeile „driver.page_source“ auskommentieren (oder ersetzen) und die folgende Zeile hinzufügen. „driver.execute_script ist eine Selenium-Python-WebDriver-API zum Ausführen von JS in einer Selenium-Umgebung. Hier führen wir ein JS-Skript aus, das ein HTML-Body-Element zurückgibt.</p><pre><code># pageSource = driver.page_source pageSource = driver.execute_script("return document.body.innerHTML;") </code></pre><p>Der Ausgabecode sieht so aus:</p><p><img data-lazyloaded="1" src="" width="853" height="296" decoding="async" class="b-lazy" data-src="https://www.lambdatest.com/blog/wp-content/uploads/2021/01/image1-2.png" alt=""/></p><p>Wie Sie sehen können, gibt es nur das innerHTML des body-Elements zurück. Wie bei der letzten Ausgabe erhalten wir nicht den gesamten Seitenquelltext. Um das gesamte Dokument zu erhalten, führen wir „document.documentElement.outerHTML“ aus. Die Zeile execute_script sieht jetzt so aus:</p><pre><code>pageSource = driver.execute_script("return document.documentElement.outerHTML;") </code></pre><p>Dies gibt uns genau die Ausgabe, die wir mit „driver.page_source“ erhalten haben.</p><p>Abrufen des Seitenquelltexts mithilfe der Anforderungsbibliothek von Python in Selenium WebDriver. Diese Methode hat nichts damit zu tun <a rel="nofollow noopener" target="_blank" href="https://www.lambdatest.com/selenium?utm_source=Codementor&utm_medium=Blog&utm_campaign=Nishant-2032021&utm_term=Nishant">Selen</a>, es ist eine rein ‘pythonische’ Möglichkeit, eine Webseitenquelle zu erhalten. Hier verwenden wir die Anforderungsbibliothek von Python, um eine Get-Anforderung an die URL zu stellen und die Antwort der Anforderung zu speichern, dh die Seitenquelle in einer HTML-Datei und auf dem Terminal zu drucken.</p><p>Hier ist das Skript –</p><pre><code>import requests url=" pythonResponse = requests.get(url) fileToWrite = open("py_source.html", "w") fileToWrite.write(pythonResponse.text) fileToWrite.close() fileToRead = open("py_source.html", "r") print(fileToRead.read()) fileToRead.close() </code></pre><p>Diese Methode kann verwendet werden, um den Quellcode einer Webseite schnell zu speichern, ohne die Seite im Selenium-gesteuerten Browser zu laden. In ähnlicher Weise können wir die urllib-Python-Bibliothek verwenden, um die HTML-Seitenquelle abzurufen.</p><p><strong>Holen Sie sich die HTML-Seitenquelle mit der URL „view-source:“.</strong></p><p>Dies ist selten erforderlich, aber Sie können die Ziel-URL mit „view-source“ anhängen und im Browserfenster laden, um den Quellcode zu laden und beim manuellen Testen zu speichern.</p><p><img data-lazyloaded="1" src="" width="1024" height="546" decoding="async" class="b-lazy" data-src="https://www.lambdatest.com/blog/wp-content/uploads/2021/01/image6-1-1024x546.png" alt=""/></p><p>Quellcode programmgesteuert übernehmen <a rel="nofollow noopener" target="_blank" href="https://www.lambdatest.com/blog/python-selenium-screenshots/?utm_source=Codementor&utm_medium=Blog&utm_campaign=Nishant-2032021&utm_term=Nishant">Screenshots in Python Selenium</a> (falls erforderlich), können Sie die Seite laden mit –</p><pre><code>driver.get("view-source: </code></pre><h3 id="get-html-page-source-in-selenium-python-webdriver-using-xpath"> Holen Sie sich die HTML-Seitenquelle in Selenium Python WebDriver mit XPath</h3><p>Die vierte Methode, um Selenium WebDriver zum Abrufen einer Seitenquelle zu veranlassen, besteht darin, XPath zum Speichern zu verwenden. Anstelle von page_source oder dem Ausführen von JavaScript identifizieren wir hier das Quellelement, dh<html>, und extrahieren es. Kommentieren Sie die Logik zum Abrufen der vorherigen Seitenquelle aus und ersetzen Sie sie durch Folgendes:</p><pre><code># pageSource = driver.page_source pageSource = driver.find_element_by_xpath("//*").get_attribute("outerHTML") </code></pre><p>Im obigen Skript verwenden wir eine Treibermethode, „find_element_by_xpath“, um das HTML-Element der Webseite zu finden. Wir geben das Dokument mit dem Quellknoten ein – <code>"//*"</code> und erhält sein „äußeres HTML“, das das Dokument selbst ist. Die Ausgabe sieht genauso aus wie zuvor mit driver.page_source.</p><h2 id="how-to-retrieve-html-source-of-webelement-in-selenium"> Wie rufe ich die HTML-Quelle von WebElement in Selenium ab?</h2><p>Um die HTML-Quelle eines WebElements in Selenium WebDriver abzurufen, können wir die get_attribute-Methode der verwenden <a rel="nofollow noopener" target="_blank" href="https://www.lambdatest.com/blog/selenium-webdriver-with-python/?utm_source=Codementor&utm_medium=Blog&utm_campaign=Nishant-2032021&utm_term=Nishant">Selenium Python WebDriver</a>. Zuerst greifen wir das HTML-WebElement mit Treiber-Element-Locator-Methoden wie (find_element_by_xpath oder find_element_by_css_selector) auf. Als nächstes wenden wir die Methode get_attribute() auf dieses erfasste Element an, um seine HTML-Quelle zu erhalten.</p><p>Angenommen, von pynishant.github.io aus möchten wir den Quellcode des div mit der ID „div1“ abrufen und drucken. Der Code dafür sieht so aus-</p><pre><code>from selenium import webdriver driver = webdriver.Chrome() driver.maximize_window() driver.get(" elementSource = driver.find_element_by_id("div1").get_attribute("outerHTML") print(elementSource) driver.quit() </code></pre><p>Hier ist die Ausgabe –</p><p><img data-lazyloaded="1" src="" width="868" height="162" decoding="async" class="b-lazy" data-src="https://www.lambdatest.com/blog/wp-content/uploads/2021/01/image2-1.png" alt=""/></p><p>Ähnlich, um die Kinder oder innerHTML eines WebElements zu erhalten –</p><pre><code>driver.find_element_by_id("some_id_or_selector").get_attribute("innerHTML") </code></pre><p>Es gibt eine alternative Möglichkeit, dies zu tun und das gleiche Ergebnis zu erzielen –</p><pre><code>elementSource = driver.find_element_by_id("id_selector_as_per_requirement") driver.execute_script("return arguments[0].innerHTML;", elementSource) </code></pre><h2 id="how-to-retrieve-json-data-from-an-html-page-source-in-python-selenium-webdriver"> Wie rufe ich JSON-Daten aus einer HTML-Seitenquelle in Python Selenium WebDriver ab?</h2><p>Moderne Anwendungen werden mit mehreren APIs erstellt. Und oft ändern diese APIs dynamisch den Inhalt von HTML-Elementen. JSON-Objekte haben sich als Alternative zu XML-Antworttypen entwickelt. Daher ist es für einen professionellen Selenium-Python-Tester unerlässlich geworden, JSON-Objekte zu handhaben, insbesondere solche, die in <script type="litespeed/javascript">HTML-Tags eingebettet sind.Python stellt uns eine eingebaute JSON-Bibliothek zur Verfügung,um mit JSON-Objekten zu experimentieren.</p><p>Zur Veranschaulichung an einem Beispiel laden wir „ in den Selenium-Treiber und suchen nach dem SEO-Schema,das in<script type=“application/ld+json“></script> enthalten ist, um zu überprüfen, ob die Logo-URL im „JSON“-Schema enthalten ist . Übrigens, wenn Sie sich verwirrt fühlen, ist dieses „SEO-Schema“ nützlich, um Webseiten bei Google zu platzieren. Es hat nichts mit Code-Logik oder Testen zu tun. Wir verwenden es nur zur Demonstration.</p><p>Wir werden LambdaTest für diese Demo verwenden.</p><pre><code>from selenium import webdriver import json import re username = "hustlewiz247" accessToken = "1BtTGpkzkYeOKJiUdivkWxvmHQppbahpev3DpcSfV460bXq0GC" gridUrl = "hub.lambdatest.com/wd/hub" desired_cap = { 'platform' : "win10", 'browserName' : "chrome", 'version' : "71.0", "resolution": "1024x768", "name": "LambdaTest json object test ", "build": "LambdaTest json object test", "network": True, "video": True, "visual": True, "console": True, } url = " print("Initiating remote driver on platform: "+desired_cap["platform"]+" browser: "+desired_cap["browserName"]+" version: "+desired_cap["version"]) driver = webdriver.Remote( desired_capabilities=desired_cap, command_executor= url ) # driver = webdriver.Chrome() driver.maximize_window() driver.get(" jsonSource = driver.find_element_by_xpath("//script[contains(text(),'logo') and contains(@type, 'json')]").get_attribute('text') jsonSource = re.sub(";","",jsonSource) jsonSource = json.loads(jsonSource) if "logo" in jsonSource: print("\n logoURL : " + str(jsonSource["logo"])) else: print("JSON Schema has no logo url.") try: if "telephone" in jsonSource: print(jsonSource["telephone"]) else: print("No Telephone - here is the source code :\n") print(driver.find_element_by_xpath("//script[contains(text(),'logo') and contains(@type, 'json')]").get_attribute('outerHTML')) except Exception as e: print(e) driver.quit() </code></pre><p>Die Ausgabe enthält logoURL und webElement source –</p><p><img data-lazyloaded="1" src="" width="810" height="293" decoding="async" class="b-lazy" data-src="https://www.lambdatest.com/blog/wp-content/uploads/2021/01/image3.png" alt=""/></p><p><img data-lazyloaded="1" src="" width="1024" height="546" decoding="async" class="b-lazy" data-src="https://www.lambdatest.com/blog/wp-content/uploads/2021/01/image8-1-1024x546.png" alt=""/></p><p><strong>Code-Aufschlüsselung</strong></p><p>Die folgenden drei Zeilen importieren erforderliche Bibliotheken: Selenium WebDriver, Pythons JSON und re-Bibliothek, um JSON-Objekte zu verarbeiten und reguläre Ausdrücke zu verwenden.</p><pre><code>from selenium import webdriver import json import re </code></pre><p><img data-lazyloaded="1" src="" width="629" height="604" decoding="async" class="b-lazy" data-src="https://www.lambdatest.com/blog/wp-content/uploads/2021/01/Capture.png" alt=""/></p><p>Als nächstes konfigurieren wir unser Skript so, dass es erfolgreich in der Cloud von LambdaTest ausgeführt wird, was ziemlich schnell und reibungslos ist. Ich brauchte weniger als 30 Sekunden, um loszulegen (vielleicht, weil ich bereits Erfahrung mit der Plattform hatte). Aber selbst wenn Sie ein Anfänger sind, würde es weniger als 1 Minute dauern. <a rel="nofollow noopener" target="_blank" href="https://accounts.lambdatest.com/login">Registrieren</a> und melden Sie sich mit Google an und klicken Sie auf <a rel="nofollow noopener" target="_blank" href="https://accounts.lambdatest.com/detail/profile">Profil</a> um Ihren Benutzernamen und Ihr Zugriffstoken zu kopieren.</p><pre><code>username = "your_username_on_lambdaTest" accessToken = "your lambdaTest access token" gridUrl = "hub.lambdatest.com/wd/hub" desired_cap = { 'platform' : "win10", 'browserName' : "chrome", 'version' : "71.0", "resolution": "1024x768", "name": "LambdaTest json object test ", "build": "LambdaTest json object test", "network": True, "video": True, "visual": True, "console": True, } url = " </code></pre><p>Wir starten den Treiber im Vollbildmodus und laden die cntraveller-Startseite mit der folgenden Codezeile –</p><pre><code>driver = webdriver.Remote( desired_capabilities=desired_cap, command_executor= url ) # driver = webdriver.Chrome() driver.maximize_window() driver.get(" </code></pre><p>Jetzt suchen wir JSON-Objekte, die Skripte enthalten, mit <a rel="nofollow noopener" target="_blank" href="https://www.lambdatest.com/blog/chrome-extensions-to-find-xpath-in-selenium/?utm_source=Codementor&utm_medium=Blog&utm_campaign=Nishant-2032021&utm_term=Nishant">XPath-Locator</a> und löschen Sie die unnötigen Semikolons, um die Zeichenfolge im JSON-Format ordnungsgemäß zu laden.</p><pre><code>jsonSource = driver.find_element_by_xpath("//script[contains(text(),'logo') and contains(@type, 'json')]").get_attribute('text') jsonSource = re.sub(";","",jsonSource) jsonSource = json.loads(jsonSource) </code></pre><p>Und dann prüfen wir, ob die Logo-URL vorhanden ist. Falls vorhanden, drucken wir es aus.</p><pre><code>if "logo" in jsonSource: print("\n logoURL : " + str(jsonSource["logo"])) else: print("JSON Schema has no logo url.") </code></pre><p>Außerdem prüfen wir, ob die Telefondaten vorhanden sind. Wenn nicht, drucken wir den Quellcode des WebElements aus.</p><pre><code>try: if "telephone" in jsonSource: print(jsonSource["telephone"]) else: print("No Telephone - here is the source code :\n") print(driver.find_element_by_xpath("//script[contains(text(),'logo') and contains(@type, 'json')]").get_attribute('outerHTML')) except Exception as e: print(e) </code></pre><p>Schließlich verlassen wir den Treiber.</p><p><code>driver.quit()</code></p><h3 id="how-to-get-page-source-as-xml-in-selenium-webdriver"> Wie erhalte ich Seitenquellen als XML in Selenium WebDriver?</h3><p>Wenn Sie eine XML-gerenderte Website laden, möchten Sie möglicherweise die XML-Antwort speichern. Hier ist eine funktionierende Lösung, um Selenium dazu zu bringen, XML-Seitenquellen zu erhalten –</p><pre><code>drive.execute_script(‘return document.getElementById(“webkit-xml-viewer-source-xml”).innerHTML’) </code></pre><h2 id="conclusion"> Fazit</h2><p>Sie können jede der oben gezeigten Methoden verwenden und die Agilität und Skalierbarkeit von LambdaTest nutzen <a rel="nofollow noopener" target="_blank" href="https://www.lambdatest.com/selenium-automation?utm_source=Codementor&utm_medium=Blog&utm_campaign=Nishant-2032021&utm_term=Nishant">Selengitterwolke</a> um Ihre Testprozesse zu automatisieren. Damit können Sie Ihre Testfälle auf über 2000 Browsern, Betriebssystemen und deren Versionen ausführen. Außerdem können Sie den automatisierten Testablauf in moderne CI/CD-Tools integrieren und die besten kontinuierlichen Testverfahren einhalten.</p><p>Beginnen Sie also sofort mit der Automatisierung Ihrer täglichen Aufgaben und erleichtern Sie sich das Leben mit LambdaTest.</p><p>Viel Spaß beim Testen!</p></div></div><footer class="entry-footer"></footer></div></article><nav class="navigation post-navigation" aria-label="Posts"><h2 class="screen-reader-text">Post navigation</h2><div class="nav-links"><div class="nav-previous"><a href="https://wons.store/inferenz-vom-typ-lokaler-variablen-deklarieren-sie-var-nicht-war/" rel="prev"><div class="post-navigation-sub"><small><span class="kadence-svg-iconset svg-baseline"><svg aria-hidden="true" class="kadence-svg-icon kadence-arrow-left-alt-svg" fill="currentColor" version="1.1" xmlns="http://www.w3.org/2000/svg" width="29" height="28" viewBox="0 0 29 28"><title>Previous Previous

Inferenz vom Typ lokaler Variablen: Deklarieren Sie var, nicht war

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *