chainetv_web/backend/chainetv/emission.py

from bs4 import BeautifulSoup
import requests
import re
from datetime import datetime, timedelta
from time import sleep

# debug
# import pprint


class Emmission(object):
    loading = False

    def __init__(self):
        self._LoadreferencePage()

    def _LoadreferencePage(self):
        URL = "https://www.programme-tv.net/programme/canal-5/"
        response = requests.get(URL)
        print("load")
        self.html = BeautifulSoup(response.content, "html.parser")
        self.timeexp = datetime.utcnow() + timedelta(seconds=30)

    def parse_emmission(self, strsearch):
        if (datetime.utcnow() > self.timeexp) and (self.loading is False):
            self.loading = True
            self._LoadreferencePage()
            self.loading = False
        else:
            while self.loading:
                sleep(0.1)
                pass
        strsearch = strsearch.replace("É", "E")
        strsearch = strsearch.strip()
        print(strsearch)
        chaineElement = self.html.find(string=re.compile(re.escape(strsearch)))
        if chaineElement == None:
            strsearch = strsearch.replace(" ", "")
            chaineElement = self.html.find(string=re.compile(re.escape(strsearch)))
        if chaineElement == None:
            return "can't find channel"
        emissionElement = chaineElement.parent.parent.parent.find_next_sibling()
        print(emissionElement)
        link = emissionElement.find("a")
        href = link["href"]
        try:
            img = emissionElement.find_next("img")["data-src"]
        except KeyError:
            img = emissionElement.find_next("img")["src"]
        response = requests.get(href)
        parse = BeautifulSoup(response.content, "html.parser")
        divcasting = parse.select_one(".peopleList")
        if divcasting:
            casting = divcasting.find_all(href=re.compile("\/biographie.*"))
            count = 0
            for actor in casting:
                casting[count] = actor["title"]
                count += 1
        else:
            casting = None
        divsynopsis = parse.select_one(".synopsis")
        if divsynopsis:
            synopsis = divsynopsis.text
        else:
            img = None
            synopsis = ""

        return {
            "title": link["title"],
            "href": href,
            "casting": casting,
            "synopsis": remove_first_space(synopsis),
            "img": img,
        }


def remove_first_space(string):
    space_number = 0
    for char in string:
        if char.isspace():
            space_number += 1
        else:
            break
    return string[space_number:]
add emission parser to api 2019-04-25 15:27:49 +00:00			`from bs4 import BeautifulSoup`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`import requests`
add emission parser to api 2019-04-25 15:27:49 +00:00			`import re`
optimize parsing 2019-05-09 17:12:41 +00:00			`from datetime import datetime, timedelta`
reference page ce chargé plusieur foi a cause des connection asynchrone 2019-05-11 13:25:04 +00:00			`from time import sleep`
add emission parser to api 2019-04-25 15:27:49 +00:00
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`# debug`
			`# import pprint`

add emission parser to api 2019-04-25 15:27:49 +00:00
optimize parsing 2019-05-09 17:12:41 +00:00			`class Emmission(object):`
reference page ce chargé plusieur foi a cause des connection asynchrone 2019-05-11 13:25:04 +00:00			`loading = False`
switch to requests API for emission 2022-01-30 20:46:21 +00:00
optimize parsing 2019-05-09 17:12:41 +00:00			`def __init__(self):`
			`self._LoadreferencePage()`

			`def _LoadreferencePage(self):`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`URL = "https://www.programme-tv.net/programme/canal-5/"`
			`response = requests.get(URL)`
optimize parsing 2019-05-09 17:12:41 +00:00			`print("load")`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`self.html = BeautifulSoup(response.content, "html.parser")`
			`self.timeexp = datetime.utcnow() + timedelta(seconds=30)`
optimize parsing 2019-05-09 17:12:41 +00:00
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`def parse_emmission(self, strsearch):`
			`if (datetime.utcnow() > self.timeexp) and (self.loading is False):`
reference page ce chargé plusieur foi a cause des connection asynchrone 2019-05-11 13:25:04 +00:00			`self.loading = True`
optimize parsing 2019-05-09 17:12:41 +00:00			`self._LoadreferencePage()`
reference page ce chargé plusieur foi a cause des connection asynchrone 2019-05-11 13:25:04 +00:00			`self.loading = False`
			`else:`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`while self.loading:`
reference page ce chargé plusieur foi a cause des connection asynchrone 2019-05-11 13:25:04 +00:00			`sleep(0.1)`
			`pass`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`strsearch = strsearch.replace("É", "E")`
			`strsearch = strsearch.strip()`
fix parsing issue 2021-05-13 11:30:23 +00:00			`print(strsearch)`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`chaineElement = self.html.find(string=re.compile(re.escape(strsearch)))`
fix parsing issue 2021-05-13 11:30:23 +00:00			`if chaineElement == None:`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`strsearch = strsearch.replace(" ", "")`
			`chaineElement = self.html.find(string=re.compile(re.escape(strsearch)))`
fix parsing issue 2021-05-13 11:30:23 +00:00			`if chaineElement == None:`
optimize parsing 2019-05-09 17:12:41 +00:00			`return "can't find channel"`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`emissionElement = chaineElement.parent.parent.parent.find_next_sibling()`
fix parsing issue 2021-05-13 11:30:23 +00:00			`print(emissionElement)`
			`link = emissionElement.find("a")`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`href = link["href"]`
fix parsing issue 2021-05-13 11:30:23 +00:00			`try:`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`img = emissionElement.find_next("img")["data-src"]`
fix parsing issue 2021-05-13 11:30:23 +00:00			`except KeyError:`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`img = emissionElement.find_next("img")["src"]`
			`response = requests.get(href)`
			`parse = BeautifulSoup(response.content, "html.parser")`
			`divcasting = parse.select_one(".peopleList")`
			`if divcasting:`
			`casting = divcasting.find_all(href=re.compile("\/biographie.*"))`
			`count = 0`
optimize parsing 2019-05-09 17:12:41 +00:00			`for actor in casting:`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`casting[count] = actor["title"]`
			`count += 1`
optimize parsing 2019-05-09 17:12:41 +00:00			`else:`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`casting = None`
			`divsynopsis = parse.select_one(".synopsis")`
			`if divsynopsis:`
			`synopsis = divsynopsis.text`
optimize parsing 2019-05-09 17:12:41 +00:00			`else:`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`img = None`
			`synopsis = ""`
optimize parsing 2019-05-09 17:12:41 +00:00
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`return {`
			`"title": link["title"],`
			`"href": href,`
			`"casting": casting,`
			`"synopsis": remove_first_space(synopsis),`
			`"img": img,`
			`}`
add emission parser to api 2019-04-25 15:27:49 +00:00

switch to requests API for emission 2022-01-30 20:46:21 +00:00			`def remove_first_space(string):`
			`space_number = 0`
add emission parser to api 2019-04-25 15:27:49 +00:00			`for char in string:`
			`if char.isspace():`
switch to requests API for emission 2022-01-30 20:46:21 +00:00			`space_number += 1`
add emission parser to api 2019-04-25 15:27:49 +00:00			`else:`
			`break`
			`return string[space_number:]`