[MXS-4465] Maxscale is killed by SystemD watchdog Created: 2022-12-29 Updated: 2023-03-17 Resolved: 2023-03-17 |
|
| Status: | Closed |
| Project: | MariaDB MaxScale |
| Component/s: | N/A |
| Affects Version/s: | 6.4.4 |
| Fix Version/s: | N/A |
| Type: | Bug | Priority: | Major |
| Reporter: | Anton | Assignee: | markus makela |
| Resolution: | Cannot Reproduce | Votes: | 0 |
| Labels: | None | ||
| Attachments: |
|
| Sprint: | MXS-SPRINT-174, MXS-SPRINT-175, MXS-SPRINT-176, MXS-SPRINT-177 |
| Description |
|
Hello, Looks like watchdog killed service
I've upload to ftp
|
| Comments |
| Comment by Naresh Chandra [ 2022-12-29 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Same issue we got in the Maxscale 22.08.3 version as well. Its crashed with Signal 6 in the MAxscale 22.08.3 version and OS is Centos 7. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Johan Wikman [ 2022-12-30 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
R A core file is great for solving this. But could you be a bit more specific where you have uploaded the zip? Br, | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Anton [ 2022-12-30 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
johan.wikman hello I uploaded archive to ftp.mariadb.org/private/ | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-01-03 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
R what OS are you using? It looks like some RHEL variant (RHEL 8?) but I'd need to know the exact version you use to be able to analyze that coredump. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-01-03 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
R would it also be possible for you to capture the output of the following command on the system where the coredump was generated?
This would help speed up us fixing this problem by providing a better stacktrace. Being able to reproduce your exact environment isn't always possible and thus results in less accurate results for us when we're looking at the coredump. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-01-03 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Nevermind about that core dump, it seems the shell output contains the full stacktrace. However, the GDB output from the command above would still be useful to have. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-01-03 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Is it possible for you to provide the stacktraces from the other coredumps that are still present? Having more stacktraces would help us figure out what might be causing this. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Anton [ 2023-01-09 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Hello markus makela I've attached dump output that you required dump_output.log Yes, OS is CentOS 8
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Anton [ 2023-01-09 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
And I provided one more output from other dump mx01_output.log | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-01-09 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
R do you have any other coredumps available on this system? Being able to see the GDB output from them would be very helpful. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Anton [ 2023-01-09 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
markus makela You need the dumps themselves , or just GDB output (using command as you sent) ? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-01-09 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
GDB outputs, this'll tell us what the other threads that the main MaxScale thread is waiting for are doing. So far they seem to be at very odd places that should not trigger this behavior. Is the system under very heavy load or is it inside some virtualized environment? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Anton [ 2023-01-09 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
markus makela The last dumps seems point to the different problem, GDB output shows problem with memory access
failed were with the next errors
I've attached GDB output of these dumps gdb_output.log | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-01-09 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Those coredumps appear to be truncated (at least based on the output) which explains why they seem corrupt. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-01-09 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
This appears to be an exception where it really does take over 60 seconds for MaxScale to process a batch of results. To verify that this is indeed the case, can you edit /lib/systemd/system/maxscale.service and change the WatchdogSec=60s to WatchdogSec=180s? You'll probably need to restart MaxScale for this to take effect. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Anton [ 2023-01-10 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
I changed watchdog to 3 minutes . | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Anton [ 2023-01-20 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
The problem didn't appear more | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Johan Wikman [ 2023-01-23 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
R Thank you, that's quite valuable information. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Johan Wikman [ 2023-01-23 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
R The message queue used for sending messages between threads is built on top of pipe(2). Up until 6.4.4 the pipe was created using O_DIRECT, which was quite unnecessary, as all our messages are of the same size. We then found out that the use of O_DIRECT significantly increases the memory consumption and thus dramatically reduces the number of messages that simultaneously fits in the pipe so in 6.4.5 we dropped the use of O_DIRECT. It would be quite informative if you could try out 6.4.5 with the original watchdog timeout and see whether the watchdog is still triggered. It's not out of the question that the use of O_DIRECT could have had other effects as well. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-01-23 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
R would it be possible for you to include any separate configuration files for filters that you are using (dbfwfilter, masking, etc.)? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-01-25 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-02-08 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
I'll reopen this until we get some feedback. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-02-09 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
R is it possible for you to test this without the dbfwfilter and masking filters? It could be that the processing caused by them ends up slowing the system down enough to make it halt. It's also possible if the analytics queries are very large that if any of the filters use regular expressions, they might slow down the system long enough for the watchdog to kill the process. One of the watchdog timeouts happened on a service that has filters=filter_sc_column_masking. Is it possible for you to provide the rule file located at /etc/maxscale.d/filter_sc_column_masking? It might give clues to us as to why this is happening. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-02-20 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
R any updates? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Anton [ 2023-02-20 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Sorry , I missed your messages , I suppose the ticket was closed I'll try to update to 6.4.5 and return watchdog timeout back I'll provide results soon | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-02-20 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Thank you very much. It's important to find out the root cause for this as increasing the watchdog timeout is likely to just postpone a future timeout. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-03-06 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
I'll move this into the Needs Feeback state. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by Anton [ 2023-03-17 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
I updated to 6.4.5 and return watchdog timeout back to 60 seconds I need to notice that I didn't turned off filters (they are worked for all time) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Comment by markus makela [ 2023-03-17 ] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
I'll close this as Cannot Reproduce as we weren't able to reproduce this. |